autoresearch는 Andrej Karpathy가 2026년 3월 공개한 자율 LLM 연구 자동화 프레임워크다. AI 코딩 에이전트(Claude, Codex 등)에게 실제 LLM 학습 코드를 주고, 에이전트가 스스로 실험을 설계·실행·평가·개선하는 루프를 밤새 돌린다. GitHub 스타 76.1k, 포크 11.1k로 자율 AI 연구 분야에서 가장 주목받는 오픈소스 프로젝트 중 하나다.
핵심 아이디어는 단순하다. “잠자는 동안 에이전트가 100번의 실험을 해줬으면 한다.” 개발자는 실험 목표와 제약을 program.md에 서술하고, 나머지는 에이전트가 알아서 처리한다.
작동 방식
autoresearch는 유지-또는-되돌리기(keep-or-revert) 루프를 중심으로 설계됐다.
- **에이전트가
train.py수정** — 모델 구조, 하이퍼파라미터, 옵티마이저 등 무엇이든 변경한다 - 5분 고정 예산으로 학습 — 벽시계 기준 정확히 5분만 학습한다
- val_bpb 평가 — 낮을수록 좋은 검증 손실(validation bits per byte)로 성과를 측정한다
- 유지 또는 되돌리기 — 이전보다 나으면 유지, 나쁘면 되돌린다
- 반복 — 시간당 약 12번, 8시간이면 약 100번의 실험이 가능하다
program.md → 에이전트 읽기 → train.py 수정 → 5분 학습 → val_bpb 측정
↓ ↓
개선됨 나빠짐
유지 되돌리기핵심 파일 구조
| 파일 | 역할 | 편집 주체 |
|---|---|---|
prepare.py | 데이터 다운로드, 토크나이저 학습, 런타임 유틸 | 수정 금지 |
train.py | GPT 모델, 옵티마이저, 학습 루프 — 에이전트가 반복 수정 | 에이전트 |
program.md | 에이전트 지침서 — 연구 목표·제약·전략 기술 | 사람 |
program.md는 Superpowers 생태계의 스킬 파일과 개념이 유사하다. 사람이 목표를 선언하면 에이전트가 이를 읽고 자율적으로 실험을 설계한다.
경쟁 도구와의 차이
| 항목 | autoresearch | 일반 AutoML | AI Scientist |
|---|---|---|---|
| 수정 대상 | 학습 코드 전체 (모델·옵티마이저·배치 등) | 하이퍼파라미터만 | 아이디어→논문 전 과정 |
| 실험 단위 | 5분 고정 예산 | 가변 | 몇 시간~며칠 |
| 인프라 요구 | 단일 NVIDIA GPU | 대규모 클러스터 가능 | 단일~멀티 GPU |
| 목적 | 빠른 반복·실용적 개선 | 최적 설정 탐색 | 새로운 과학적 발견 |
설치 및 빠른 시작
요구 사항: NVIDIA GPU 1장, Python 3.10+, uv
# 1. uv 설치
curl -LsSf https://astral.sh/uv/install.sh | sh
# 2. 의존성 설치
uv sync
# 3. 데이터 다운로드 + 토크나이저 학습 (최초 1회, 약 2분)
uv run prepare.py
# 4. 단일 실험 직접 실행 (~5분)
uv run train.py에이전트 실행은 간단하다. Claude Code 또는 Codex를 저장소에서 열고 모든 파일 권한을 활성화한 뒤, 다음 한 마디로 시작한다.
Hi, have a look at program.md and let's kick off a new experiment! Let's do the setup first.플랫폼 포트 (주요 포크)
NVIDIA GPU가 없는 환경을 위한 커뮤니티 포크가 빠르게 등장했다.
| 포크 | 대상 플랫폼 |
|---|---|
| miolini/autoresearch-macos | Apple Silicon / MPS |
| trevin-creator/autoresearch-mlx | MLX 네이티브 (PyTorch 불필요) |
| jsegov/autoresearch-win-rtx | Windows + 소비자용 RTX |
| andyluo7/autoresearch | AMD GPU |
소비자 하드웨어에서 실행할 때는 데이터셋을 TinyStories처럼 좁은 도메인으로 바꾸고, MAX_SEQ_LEN·DEPTH·TOTAL_BATCH_SIZE를 대폭 낮추는 것이 권장된다.
누가, 어떤 경우에 쓰면 좋을까
- ML 연구자 — 새벽 출근 전에 에이전트가 100번 실험하게 두고 싶은 경우
- 개인 개발자 — 소규모 모델을 자신의 GPU에 맞게 자동 최적화하고 싶은 경우
- 에이전트 연구자 — keep-or-revert 루프를 다른 도메인(커널 최적화, 트레이딩 등)에 적용하는 패턴 탐구
라이선스
MIT
관련 문서
- awesome-autoresearch — autoresearch 에코시스템 파생 구현체·플랫폼 포트·연구 자동화 시스템 큐레이션
- pi-autoresearch — 실시간 메트릭 대시보드를 추가한 pi-autoresearch 확장
- generic-agent — 시드 코드에서 스스로 성장하는 자기진화 에이전트
- agent-harness — 에이전트 성능을 결정하는 하네스 설계 방법론