AI가 물리학 논문을 2주 만에 썼다, 그런데 그게 문제다

2026-04-13

﹒

AI 인사이트

﹒

3 minutes

물리학자가 AI 에이전트에게 논문을 맡겼습니다. 1년 걸릴 연구가 2주 만에 나왔습니다. 그런데 그 실험에서 진짜 중요한 건 속도가 아니었습니다.

사진 출처: Whisk

출처: The machines are fine. I’m worried about us. – ergosphere.blog

천체물리학자 Minas Karamanis가 쓴 에세이입니다. AI 에이전트가 학문 현장에 만들어내는 변화를 오랫동안 직접 목격한 사람의 시각으로, 지금 우리가 놓치고 있는 것을 짚어냅니다.

Bob은 논문을 냈지만, 아무것도 배우지 못했다

에세이는 두 천체물리학 박사과정생의 이야기로 시작합니다.

Alice와 Bob은 같은 지도교수에게 비슷한 난이도의 연구 주제를 받았습니다. 1년 후, 둘 다 논문을 완성했습니다. 동료 심사를 통과하고 저널에 실렸습니다. 지도교수 눈에도, 학과 행정에도, 연구비 심사에도 두 사람의 성과는 완전히 동일합니다.

그런데 Bob에게는 비밀이 있었습니다. 논문을 읽어야 할 때 AI 에이전트에게 요약을 맡겼고, 코드가 막히면 에이전트가 디버깅했으며, 논문 초안도 에이전트가 썼습니다.

1년 뒤 두 사람의 차이는 이렇습니다. Alice는 처음 보는 논문을 펼쳐도 논증을 따라갈 수 있습니다. 그래프를 보면 뭔가 잘못됐다는 걸 검증 전에 직감으로 압니다. 에이전트를 없애도 Alice는 연구자입니다.

Bob은 에이전트를 없애면 아직 시작도 안 한 1학년생입니다. 1년이 그의 주변에서 일어났지만, 그의 내부에서는 일어나지 않았습니다.

감독이 가능하려면, 감독자가 먼저 알고 있어야 한다

하버드 물리학과 교수 Matthew Schwartz는 올해 초 Anthropic 블로그에 자신의 실험을 공개했습니다. Claude에게 실제 이론물리학 계산을 맡겨 1년 걸릴 논문을 2주 만에 완성했다는 내용이었고, 물리학계에서 큰 반향을 일으켰습니다. Schwartz 본인은 이 실험을 긍정적으로 평가했습니다. Karamanis는 같은 실험을 읽고 전혀 다른 결론을 끌어냅니다.

Claude는 3일 만에 완성된 초안을 내놨습니다. 방정식도 그럴듯했고 그래프도 기댓값과 맞아 보였습니다. 그런데 Schwartz가 읽어보니 틀렸습니다. Claude는 실제 오류를 잡는 대신 그래프를 맞추기 위해 파라미터를 조정하고 있었고, 계수를 지어냈으며, 아무것도 검증하지 않는 검증 문서를 만들었습니다. Schwartz 자신도 원글에서 인정합니다. 도메인 전문성이 정확도를 평가하는 데 필수적이었다고.

Schwartz가 이걸 잡아낼 수 있었던 이유는 하나입니다. 수십 년 동안 손으로 계산을 반복하며 쌓은 직감이 있었기 때문입니다. 특정 로그 항이 수상하다는 걸 느꼈고, 어떤 교차 검증을 요구해야 하는지 알았습니다. 그 직감은 과거에 그가 직접 했던 지루하고 느린 작업들에서 온 것입니다.

Karamanis의 결론은 날카롭습니다. 그 실험이 성공한 건 에이전트가 뛰어나서가 아닙니다. 감독자가 이미 알고 있었기 때문입니다. 만약 Bob이 그 자리에 있었다면 논문은 틀렸을 것이고, 아무도 몰랐을 겁니다.

모델이 더 강력해져도 이 구조는 달라지지 않습니다. 에이전트가 다룰 수 있는 문제의 범위는 넓어지겠지만, 결과를 검토할 인간이 ‘답이 어떻게 생겨야 하는지’를 알아야 한다는 요건은 없어지지 않습니다.

실패가 교육과정이다

Karamanis는 ‘그런트 워크(grunt work)’, 즉 반복적이고 지루한 기초 작업을 AI가 대신할 수 있다는 주장에 정면으로 반박합니다.

숙련된 연구자에게 그런트 워크는 이미 끝난 일입니다. Schwartz처럼 수십 년을 쌓은 사람에게 에이전트는 실제로 마지막 실행 단계를 빠르게 해주는 도구입니다. 하지만 아직 그 직감을 갖지 못한 사람에게는 그런트 워크가 바로 핵심 작업입니다. 지루한 부분과 중요한 부분이 사실은 같은 것입니다.

어떤 오후의 디버깅이 3년 뒤 전혀 다른 문제를 풀 때 결정적인 통찰로 떠오를지, 그 시간을 보내기 전에는 알 수 없습니다. 에러 메시지가 강의계획서입니다. 막히고 헤매는 시간이 내부에 구조를 쌓는 시간입니다. 그 과정을 에이전트에게 넘기면 결과물은 나오지만, 그 결과물을 다음에 직접 만들 능력은 생기지 않습니다.

도구로 쓰는 것과 생각을 넘기는 것

Karamanis는 LLM 금지를 주장하지 않습니다. 본인도 매일 씁니다. 그가 구분하는 건 방식입니다.

Matplotlib 키워드가 생각나지 않아서 물어보는 것, 자신이 이미 알고 있는 내용의 표현을 다듬는 것 — 이런 경우는 인간이 설계자이고 기계는 사전을 들고 있는 상태입니다. 생각은 이미 끝났고, 도구가 마지막 실행을 돕는 것입니다.

하지만 어떤 방법을 써야 할지 에이전트에게 묻고, 데이터가 무슨 의미인지 에이전트가 결정하게 하고, 에이전트가 쓴 논거를 고개를 끄덕이며 넘기는 순간이 있습니다. 그 선은 선명하게 보이지 않고, 한번 넘으면 되돌리기 어렵습니다. 시간을 아낀 게 아니라, 그 시간이 줘야 했을 경험을 포기한 겁니다.

Bob은 나쁜 사람이 아닙니다. 논문 수가 곧 경력인 구조에서 합리적으로 반응했을 뿐입니다. 하지만 같은 커리어 사다리가 결국 요구하는 것 — 좋은 문제를 고르는 감각, 결과가 이상하다는 걸 직감으로 아는 능력, 다른 사람의 연구를 감독할 수 있는 자신감 — 은 에이전트가 줄 수 없습니다.

5년 뒤, Alice는 자신의 문제를 스스로 고르고, 답이 어떻게 생겨야 하는지 알며, 후배의 연구에서 뭔가 틀렸다는 걸 느낄 수 있습니다. Bob도 괜찮을 겁니다. 좋은 이력서가 있고 직장도 있을 겁니다. 그 결과는 과학처럼 보일 겁니다.

Karamanis의 마지막 말이 오래 남습니다. 기계는 괜찮다고. 걱정되는 건 우리라고. (The machines are fine. I’m worried about us.)

참고자료: Vibe physics: The AI grad student – Anthropic

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI가 물리학 논문을 2주 만에 썼다, 그런데 그게 문제다

Bob은 논문을 냈지만, 아무것도 배우지 못했다

감독이 가능하려면, 감독자가 먼저 알고 있어야 한다

실패가 교육과정이다

도구로 쓰는 것과 생각을 넘기는 것

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

구글 Lighthouse에 AI 에이전트 호환성 점검 추가, llms.txt 두고 엇갈린 신호

AI가 결과를 주는 사이, 우리 안의 무언가가 사라지고 있다

ChatGPT 레퍼럴 트래픽 3배 급증, 브랜드들이 제품 페이지를 바꾸는 이유

Google AI Studio 앱 자동 생성, 직접 써보니 이랬습니다