객관적 지표가 있다면 인간이 병목이다, Karpathy가 그은 AI 자율 연구의 경계선

2026-03-31

﹒

3 minutes

Karpathy가 몇 달에 걸쳐 직접 손으로 다듬은 GPT-2 학습 코드가 있었습니다. 그가 하룻밤 동안 AI 에이전트에게 맡겼더니, 20년 경력의 연구자가 놓쳤던 개선점 20개가 나왔습니다. 그는 이 실험 이후 이렇게 말했습니다. “지금 사용 가능한 도구에서 최대한을 끌어내려면, 당신이 병목이 되어서는 안 됩니다. 다음 프롬프트를 기다리고 있을 수 없어요.”

사진 출처: The Decoder

이 실험의 배경이 된 AutoResearch 프레임워크는 이전 글에서 자세히 소개했습니다. 이번 글은 그 이후 Karpathy가 꺼낸 더 날카로운 이야기, 즉 이 방식이 작동하는 곳과 작동하지 않는 곳의 경계에 대한 것입니다.

출처: Andrej Karpathy on Code Agents, AutoResearch, and the Loopy Era of AI – No Priors Podcast

인간이 병목이 되는 이유

AutoResearch의 실험 구조는 단순합니다. AI 에이전트가 학습 코드를 수정하고, 5분 동안 학습을 돌린 뒤, 검증 손실(val_bpb)이 줄었으면 변경을 유지하고 아니면 되돌립니다. 이걸 밤새 반복합니다. 2일 동안 700번의 실험이 돌아갔고, 그 중 20개의 유효한 개선이 쌓여 학습 시간을 11% 줄였습니다.

왜 인간은 이걸 못 했을까요? Karpathy는 주요 AI 연구소의 연구자들이 자신의 직관을 너무 신뢰한다고 지적합니다. 직관은 탐색 범위를 좁히고, 시도해볼 것과 시도하지 않을 것을 미리 걸러냅니다. 에이전트는 그런 필터 없이 탐색합니다. 중요한 건 이겁니다. 목표가 명확하고, 결과가 숫자로 즉시 검증되는 환경에서는 인간의 경험과 직관이 오히려 탐색의 속도를 제한하는 요인이 됩니다.

Karpathy가 말한 “병목”은 게으름이나 무능함의 문제가 아닙니다. 인간이 직접 루프 안에 있으면 실험 속도가 인간의 판단 속도에 묶이고, 다음 시도를 기다리는 시간이 발생합니다. 측정 가능한 목표가 있는 영역에서 이건 구조적인 낭비입니다.

지표가 목표가 되는 순간

그런데 이 논리에는 전제가 있습니다. “객관적 지표”가 실제로 목적을 반영해야 한다는 것입니다.

AutoResearch의 GitHub Discussion에서 한 연구자가 Karpathy에게 직접 물었습니다. “실험을 수백 번 반복하다 보면 결국 검증 세트를 과적합(spoil)시키는 것 아니냐고요.” 에이전트가 검증 지표를 개선하는 방향으로 학습 코드를 최적화하다 보면, 어느 순간부터는 실제 성능이 아니라 지표 자체에 맞춰지는 현상이 생길 수 있다는 우려입니다. Karpathy의 답변은 방어적이었습니다. “우리는 단지 컴퓨팅 대비 성능을 최적화하는 것이고, 이건 실질적인 개선”이라고 했지만, 이 답변이 과적합 우려를 완전히 해소하지는 못한다는 게 커뮤니티의 평가입니다.

경제학에서 나온 굿하트의 법칙(Goodhart’s Law)이 여기에 정확히 맞아떨어집니다. “어떤 지표가 목표가 되는 순간, 그 지표는 더 이상 좋은 지표가 아니다.” AI 에이전트는 지표를 최적화하는 데 탁월합니다. 하지만 그 지표가 진짜 목적과 얼마나 일치하는지는 이해하지 못합니다. 지표 설계가 잘못되거나 지표 자체가 흔들리기 시작하면, 에이전트의 최적화는 엉뚱한 방향으로 달립니다.

지표가 없는 곳에서는 인간이 루프 안에 있어야 한다

Karpathy는 한 걸음 더 나아가 이 한계를 직접 선언했습니다. “소프트하게 느껴지는 건 뭐든 잘 안 됩니다(Anything that feels softer is worse).”

글쓰기 품질, 연구 아이디어의 독창성, 사용자 경험, 전략적 판단. 이런 영역에는 val_bpb 같은 단일하고 즉각적인 지표가 존재하지 않습니다. 어떤 글이 더 좋은지, 어떤 연구 방향이 더 가치 있는지는 5분 후에 숫자로 확인되지 않습니다. 그리고 그 판단을 대리할 지표를 만드는 것 자체가 이미 인간의 일입니다.

코딩이나 ML 하이퍼파라미터 최적화처럼 성공/실패가 명확하게 구분되는 영역은 자율 에이전트에게 넘길 수 있습니다. 하지만 그 기준이 모호하거나, 목적 자체를 정의해야 하는 영역에서는 인간이 루프 안에 있어야 합니다. 아이러니하게도, 자율 연구가 가장 잘 작동하는 조건을 만드는 일, 즉 무엇을 측정할지 정하는 일은 자동화되지 않습니다.

경계선이 만드는 새로운 역할

Karpathy는 AutoResearch의 미래를 이렇게 그렸습니다. “에이전트 무리를 가동하고, 에이전트들이 협력해 작은 모델을 튜닝하고, 가장 유망한 아이디어를 더 큰 규모로 올립니다. 인간은 선택적으로 가장자리에서 기여하는 거죠.”

“가장자리에서의 기여”가 핵심입니다. 측정 가능성이 자율 연구의 경계라면, 그 경계 바깥, 즉 문제를 정의하고, 무엇을 최적화할지 결정하고, 결과를 해석하는 일은 더 인간적인 영역으로 남습니다. 모든 프런티어 AI 연구소가 이 방식을 채택하게 될 것이라는 그의 전망이 맞다면, 연구자의 역할은 실험을 직접 수행하는 것에서 실험이 잘 작동할 조건을 설계하는 것으로 이동하게 됩니다.

참고자료:

autoresearch GitHub Discussion #43 – karpathy/autoresearch
‘The Karpathy Loop’: 700 experiments, 2 days – Fortune

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

객관적 지표가 있다면 인간이 병목이다, Karpathy가 그은 AI 자율 연구의 경계선

인간이 병목이 되는 이유

지표가 목표가 되는 순간

지표가 없는 곳에서는 인간이 루프 안에 있어야 한다

경계선이 만드는 새로운 역할

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Claude, 소상공인 업무 도구 안으로 들어가다, QuickBooks·PayPal 직접 연동

AI 에이전트도 온보딩이 필요하다, 에이전트 시대의 5가지 코드 레이어

AI 추론이 둘로 나뉜다, Answer와 Agentic의 차이가 하드웨어를 바꾼다

Anthropic, 처음으로 기업 고객 수에서 OpenAI 추월, Ramp 데이터로 본 1년의 변화