autoresearch – AI 에이전트가 단일 GPU에서 LLM 연구를 자율 반복하는 Karpathy의 오픈소스 프레임워크

작동 방식
핵심 파일 구조
경쟁 도구와의 차이
설치 및 빠른 시작
플랫폼 포트 (주요 포크)
누가, 어떤 경우에 쓰면 좋을까
라이선스
관련 문서

autoresearch는 Andrej Karpathy가 2026년 3월 공개한 자율 LLM 연구 자동화 프레임워크다. AI 코딩 에이전트(Claude, Codex 등)에게 실제 LLM 학습 코드를 주고, 에이전트가 스스로 실험을 설계·실행·평가·개선하는 루프를 밤새 돌린다. GitHub 스타 76.1k, 포크 11.1k로 자율 AI 연구 분야에서 가장 주목받는 오픈소스 프로젝트 중 하나다.

핵심 아이디어는 단순하다. “잠자는 동안 에이전트가 100번의 실험을 해줬으면 한다.” 개발자는 실험 목표와 제약을 program.md에 서술하고, 나머지는 에이전트가 알아서 처리한다.

작동 방식

autoresearch는 유지-또는-되돌리기(keep-or-revert) 루프를 중심으로 설계됐다.

**에이전트가 train.py 수정** — 모델 구조, 하이퍼파라미터, 옵티마이저 등 무엇이든 변경한다
5분 고정 예산으로 학습 — 벽시계 기준 정확히 5분만 학습한다
val_bpb 평가 — 낮을수록 좋은 검증 손실(validation bits per byte)로 성과를 측정한다
유지 또는 되돌리기 — 이전보다 나으면 유지, 나쁘면 되돌린다
반복 — 시간당 약 12번, 8시간이면 약 100번의 실험이 가능하다

program.md  →  에이전트 읽기  →  train.py 수정  →  5분 학습  →  val_bpb 측정
                                                              ↓          ↓
                                                         개선됨      나빠짐
                                                           유지       되돌리기

핵심 파일 구조

파일	역할	편집 주체
`prepare.py`	데이터 다운로드, 토크나이저 학습, 런타임 유틸	수정 금지
`train.py`	GPT 모델, 옵티마이저, 학습 루프 — 에이전트가 반복 수정	에이전트
`program.md`	에이전트 지침서 — 연구 목표·제약·전략 기술	사람

program.md는 Superpowers 생태계의 스킬 파일과 개념이 유사하다. 사람이 목표를 선언하면 에이전트가 이를 읽고 자율적으로 실험을 설계한다.

경쟁 도구와의 차이

항목	autoresearch	일반 AutoML	AI Scientist
수정 대상	학습 코드 전체 (모델·옵티마이저·배치 등)	하이퍼파라미터만	아이디어→논문 전 과정
실험 단위	5분 고정 예산	가변	몇 시간~며칠
인프라 요구	단일 NVIDIA GPU	대규모 클러스터 가능	단일~멀티 GPU
목적	빠른 반복·실용적 개선	최적 설정 탐색	새로운 과학적 발견

설치 및 빠른 시작

요구 사항: NVIDIA GPU 1장, Python 3.10+, uv

# 1. uv 설치
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 의존성 설치
uv sync

# 3. 데이터 다운로드 + 토크나이저 학습 (최초 1회, 약 2분)
uv run prepare.py

# 4. 단일 실험 직접 실행 (~5분)
uv run train.py

에이전트 실행은 간단하다. Claude Code 또는 Codex를 저장소에서 열고 모든 파일 권한을 활성화한 뒤, 다음 한 마디로 시작한다.

Hi, have a look at program.md and let's kick off a new experiment! Let's do the setup first.

플랫폼 포트 (주요 포크)

NVIDIA GPU가 없는 환경을 위한 커뮤니티 포크가 빠르게 등장했다.

포크	대상 플랫폼
miolini/autoresearch-macos	Apple Silicon / MPS
trevin-creator/autoresearch-mlx	MLX 네이티브 (PyTorch 불필요)
jsegov/autoresearch-win-rtx	Windows + 소비자용 RTX
andyluo7/autoresearch	AMD GPU

소비자 하드웨어에서 실행할 때는 데이터셋을 TinyStories처럼 좁은 도메인으로 바꾸고, MAX_SEQ_LEN·DEPTH·TOTAL_BATCH_SIZE를 대폭 낮추는 것이 권장된다.

누가, 어떤 경우에 쓰면 좋을까

ML 연구자 — 새벽 출근 전에 에이전트가 100번 실험하게 두고 싶은 경우
개인 개발자 — 소규모 모델을 자신의 GPU에 맞게 자동 최적화하고 싶은 경우
에이전트 연구자 — keep-or-revert 루프를 다른 도메인(커널 최적화, 트레이딩 등)에 적용하는 패턴 탐구

라이선스

MIT

AI Sparkup