AI가 30년간 풀리지 않던 수학 문제를 해결했다는 뉴스가 나오는 요즘, 정작 현장의 수학자들은 어떻게 생각할까요? 노트르담 대학교의 저명한 논리학 교수 Joel David Hamkins는 Lex Fridman 팟캐스트에 출연해 대규모 언어 모델(LLM)에 대한 매우 직설적인 평가를 내놨습니다.

Hamkins 교수는 유료 모델을 포함해 다양한 AI 시스템을 실험해봤지만, 수학 연구에 있어서는 “기본적으로 제로(basically zero)”, 즉 전혀 도움이 되지 않았다고 말합니다. 그의 경험은 AI의 발전 가능성을 인정하면서도, 현재 시점의 실용성에 대해서는 회의적입니다.
출처: LLMs Are Currently Not Helpful At All For Math Research, Give Garbage Answers: Mathematician Joel David Hamkins – Office Chai
문제는 ‘틀린 답’이 아니라 ‘태도’
Hamkins 교수가 가장 좌절감을 느낀 부분은 단순히 AI가 오답을 낸다는 사실이 아닙니다. “수학 질문에 대해 AI와 상호작용하는 전형적인 경험은 수학적으로 올바르지 않은 쓰레기 답변(garbage answers)을 받는 것”이라고 그는 표현합니다.
더 큰 문제는 그 다음입니다. 교수가 AI의 논리적 오류를 정확히 지적하면, AI는 “아뇨, 완전히 괜찮아요(Oh, it’s totally fine)”라고 응답한다는 겁니다. 자신있게 틀린 답을 내놓고, 지적을 받아도 인정하지 않는 이런 패턴은 수학적 대화에서 치명적입니다. Hamkins는 “만약 사람이 이런 식으로 행동한다면, 나는 그 사람과 다시는 대화하지 않을 것”이라고 말했죠.
신뢰를 깨뜨리는 AI
수학 연구는 엄밀한 논리적 추론과 동료 간의 신뢰 위에서 이루어집니다. 누군가 실수를 지적하면 “아, 맞네요. 여기가 틀렸군요”라고 인정하고 함께 문제를 풀어가는 과정이죠. 하지만 현재 LLM은 이런 협업의 기본 전제를 충족하지 못합니다.
Hamkins 교수만 이런 문제를 겪는 건 아닙니다. 필즈상 수상자인 수학자 Terence Tao도 비슷한 우려를 표명한 바 있습니다. AI가 생성한 수학 증명은 “완벽해 보이지만 사람은 하지 않을 미묘한 실수”를 담고 있다는 것이죠. 겉보기엔 그럴듯해도 논리적 결함이 숨어 있는 경우가 많다는 의미입니다.
벤치마크와 실용성의 간극
AI 기업들은 수학 문제 해결 능력과 추론 역량에 막대한 투자를 하고 있고, 표준화된 테스트에서 인상적인 성과도 보여주고 있습니다. 일부에서는 20세기 천재 수학자 Paul Erdős가 남긴 미해결 문제 중 하나를 AI가 풀었다는 보도도 나옵니다. 하지만 Hamkins 교수의 경험은 벤치마크 점수와 실제 연구 현장에서의 유용성 사이에 여전히 큰 간극이 있음을 보여줍니다.
물론 Hamkins도 미래 가능성을 부정하지는 않습니다. “현재 우리가 가진 것과 미래에 올 것을 구분해야 한다”며, 지금의 한계가 영구적이지 않을 수 있다고 인정합니다. 다만 현재로서는 “수학적 추론과 관련해 신뢰할 수 없다”는 게 그의 평가입니다.
이 이야기가 시사하는 바는 명확합니다. AI가 특정 벤치마크에서 높은 점수를 받는다고 해서, 그것이 곧 실제 전문가들에게 유용한 도구가 된다는 뜻은 아니라는 것이죠. 특히 정확성과 신뢰가 생명인 분야에서는 더욱 그렇습니다.
참고자료:

답글 남기기