연구자가 잠든 사이, AI 에이전트가 700번의 실험을 돌리고 스스로 개선사항을 골라냈습니다. 그것도 이미 잘 튜닝된 코드베이스에서요.

Andrej Karpathy가 지난 3월 오픈소스로 공개한 autoresearch는 AI 에이전트가 ML 학습 코드를 직접 수정하고, 실험을 실행하고, 결과를 평가한 뒤 개선된 경우에만 커밋하는 자율 연구 루프입니다. Philipp Schmid(HuggingFace)가 이 도구의 작동 원리와 초기 실험 결과를 분석한 글을 발표했습니다.
출처: How Autoresearch will change Small Language Models adoption – philschmid.de
어떻게 작동하나요
autoresearch의 핵심은 단순한 루프입니다. 에이전트가 program.md에 적힌 연구 방향을 읽고 → 학습 코드(train.py)를 수정하고 → 5분짜리 학습을 실행하고 → 지표가 개선됐으면 커밋, 아니면 폐기. 이걸 끊임없이 반복합니다.
이 루프가 실제로 작동하게 만드는 설계 원칙이 네 가지입니다. 우선 모든 실험을 5분으로 고정해 결과를 서로 비교 가능하게 합니다. 에이전트가 수정할 수 있는 파일은 학습 스크립트 하나뿐으로 범위를 제한하고, git 커밋 히스토리를 메모리로 활용해 에이전트가 이전 실험을 참고하며 다음 시도를 계획합니다. 사람의 판단 없이 지표 개선 여부만으로 자동 선별하고요. 시간당 약 12번, 하룻밤에 100번 정도 실험이 돌아갑니다.
실제로 무엇을 발견했나
Karpathy는 자신이 이미 수작업으로 잘 튜닝한 GPT-2 학습 코드(nanochat)에 autoresearch를 돌렸습니다. 이틀 동안 약 700번의 실험이 돌아갔고, 에이전트는 Karpathy가 놓쳤던 개선점 20여 개를 찾아냈습니다.
구체적으로는 어텐션 스케일링 파라미터 누락, 밸류 임베딩의 정규화 부재, 지나치게 보수적인 밴디드 어텐션 윈도우, AdamW 베타값과 가중치 감소 스케줄 비최적화 등이었습니다. 이 개선들을 모두 쌓았을 때 GPT-2 수준 도달 시간이 2.02시간에서 1.80시간으로 11% 단축됐고, 작은 모델(depth-12)에서 발견한 개선들이 더 큰 모델(depth-24)에도 그대로 전이됐습니다.
Shopify CEO Tobi Lütke는 이 패턴을 자사 내부 검색 프로젝트에 하룻밤 만에 적용했습니다. 37번의 실험 끝에 0.8B 모델이 기존 1.6B 모델보다 19% 높은 점수를 냈습니다. 절반 크기의 모델이 두 배 크기 모델을 앞선 셈입니다.
이 접근의 핵심 전제
autoresearch의 성패는 평가 지표(eval)에 달려 있습니다. 에이전트가 100배 빠르게 실험을 돌릴 수 있어도, 지표 자체가 실제 성능을 반영하지 못하면 겉보기에만 좋은 모델이 나옵니다. 평가 데이터셋은 에이전트가 절대 건드리지 못하도록 완전히 격리해야 하고, 정적인 벤치마크는 금방 포화되니 실제 프로덕션 데이터에서 주기적으로 갱신할 수 있어야 합니다.
또 한 가지 흥미로운 비교가 있습니다. GEPA 같은 프롬프트 최적화 도구는 모델 가중치를 건드리지 않고 프롬프트만 진화시키는 반면, autoresearch는 가중치 자체를 바꿉니다. 둘은 경쟁 관계가 아니라 함께 쓸 수 있는 레이어입니다.
검색 랭킹, 의도 분류, 사기 탐지처럼 도메인 특화 소형 모델이 유리한 태스크에 이 패턴이 특히 잘 맞는다는 게 Philipp Schmid의 분석입니다. ML 경험 없이도 밤새 모델을 최적화할 수 있다면, 도메인 특화 소형 모델의 도입 문턱은 상당히 낮아질 수 있습니다.
참고자료:
- karpathy/autoresearch – GitHub (공식 저장소)
- Karpathy autoresearch 공개 발표 – X (@karpathy)
- Tobi Lütke의 하룻밤 적용 후기 – X (@tobi)
- Karpathy Open-Sourced a 24/7 AI Research Lab – theunwindai.com

답글 남기기