AI가 수학자의 미발표 증명을 풀었다, First Proof 1라운드 결과와 남겨진 문제들

2026-03-23

﹒

AI 인사이트

﹒

2 minutes

수학자들이 아직 발표하지 않은 논문의 보조 정리를, AI가 일주일 만에 증명해냈습니다. 그런데 맞는 증명 옆에는 수천 페이지 분량의 틀린 증명도 함께 쌓였습니다.

사진 출처: Scientific American

하버드, 스탠퍼드, 토론토 대학의 수학자 11명으로 구성된 First Proof 팀이 LLM이 실제 연구 수준의 수학에 기여할 수 있는지 테스트하는 첫 번째 벤치마크 결과를 공개했습니다. 기존 벤치마크와 달리, 팀원들이 직접 쓴 미발표 논문의 보조 정리(lemma) 10개를 문제로 냈고 1주일의 기한을 줬습니다. 인터넷 어디에도 없는 문제들이었습니다.

출처: Aletheia tackles FirstProof autonomously – Google DeepMind (arXiv)

예상을 뛰어넘은 결과, 하지만 새로운 부담도

OpenAI의 모델은 5개, Google DeepMind의 에이전트 Aletheia는 6개를 정답으로 인정받았습니다. 두 모델이 합치면 최대 8개가 적어도 부분적으로 해결됐습니다. First Proof 팀원이자 하버드 수학자 Lauren Williams는 “AI 모델들이 꽤 인상적이었다”고 평가했습니다.

흥미로운 점은 두 모델의 강점이 달랐다는 것입니다. 각 모델은 상대방이 풀지 못한 문제를 여러 개 풀었습니다. 같은 문제를 두고 서로 다른 접근을 취하고 있다는 뜻입니다.

그러나 토론토 대학의 수학자 Daniel Litt는 이 결과를 이렇게 정리했습니다. “합쳐서 8개를 풀었지만, 수천 수천 페이지의 쓰레기도 만들어냈습니다.” AI는 틀릴 때도 자신감 있게 틀립니다. 문헌을 인용하지만 실제보다 강한 결과인 것처럼 포장하거나, 긴 계산 중간에 결정적인 실수를 묻어놓습니다. 스탠퍼드의 수학자 Mohammed Abouzaid는 “해당 단어들의 의미를 아는 인간이라면 절대 이런 실수를 하지 않을 것”이라고 말할 만큼, AI의 오류는 독특한 방식으로 나타납니다.

공개 모델과 비공개 모델 사이의 격차

1라운드에서 드러난 또 하나의 균열은 공개 모델과 기업 내부 모델의 성능 차이입니다. 사전 테스트에서 가장 우수한 공개 모델은 10문제 중 2개만 풀었습니다. 아마추어와 전문 수학자들이 여러 LLM을 연결해 오류를 검토하는 ‘스캐폴드’ 방식을 시도했지만 추가로 1문제를 더 푸는 데 그쳤습니다. 반면 기업 팀은 8개를 해결했습니다.

이 격차의 원인은 아직 불분명합니다. 미공개 모델 버전을 사용했거나, 더 강력한 내부 스캐폴드를 활용했거나, 혹은 인간 수학자의 개입이 있었을 수도 있습니다. Google DeepMind는 논문에서 “인간 개입이 전혀 없었다”고 명시했지만, 이를 외부에서 검증할 방법이 없었습니다.

2라운드가 던지는 질문

이 불투명성이 2라운드의 핵심 설계 원칙이 됐습니다. 참가를 원하는 AI 기업은 모델을 First Proof 팀이 직접 실행할 수 있는 형태로 제출해야 합니다. “무엇을 테스트하는지 명확히 알아야 한다”는 것이 팀의 원칙입니다. OpenAI와 Google이 이 조건에 응할지, 1라운드에 참여하지 않은 다른 기업들이 나설지는 아직 미지수입니다.

검증 문제도 과제입니다. 1라운드에서 AI가 만든 증명의 정확성을 판단하는 일 자체가 얼마나 어려운지가 드러났습니다. 2라운드에서는 익명 수학자들을 심사위원으로 고용하는 방식을 도입할 예정이지만, AI가 생산하는 증명의 양이 계속 늘어난다면 인간 검증 자원은 금방 한계에 부딪힐 수 있습니다.

First Proof는 수학 연구의 미래를 엿보려는 시도이기도 합니다. Abouzaid는 “젊은 연구자들에게 몇 년 후 이 분야가 어떤 모습일지 말해줄 수 있어야 한다”고 말합니다. Litt는 낙관적입니다. AI 도구 덕분에 지금껏 시도하지 못했던 연구를 하고 있다고 말하면서도, “우리 기관과 학계는 다가오는 변화에 적응하지 못하고 있다”는 경고도 빠뜨리지 않았습니다.

논문에는 Aletheia의 세부 방법론과 각 문제별 증명 과정이 공개되어 있습니다. AI 수학 에이전트의 실제 작동 방식이 궁금하다면 원문을 참고하세요.

참고자료: As AI keeps improving, mathematicians struggle to foretell their own future – Scientific American

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI가 수학자의 미발표 증명을 풀었다, First Proof 1라운드 결과와 남겨진 문제들

예상을 뛰어넘은 결과, 하지만 새로운 부담도

공개 모델과 비공개 모델 사이의 격차

2라운드가 던지는 질문

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Qwen이 Opus급이라는 말의 진실, 직접 굴려본 창업자의 현실 보고서

무료 ChatGPT가 의사 답변보다 높은 점수를 받았다, GPT-5.5 Instant 건강 업그레이드

AI 에이전트는 왜 아직 사람이 필요한가, goose 팀의 자기개선 루프

Claude가 신분증을 요구하기 시작했다, AI 챗봇에 들어온 신원 인증의 의미