Awesome Autoresearch는 Andrej Karpathy의 autoresearch 프로젝트에서 영감을 받은 자율 개선 루프(autonomous improvement loop), 연구 에이전트, 파생 구현체를 수집한 고신호 큐레이션 목록이다. “Boring Dystopia Development”(@alvinunreal)가 관리하며 CC0 라이선스로 공개되어 있다.
autoresearch란
Karpathy의 autoresearch는 AI 에이전트가 정해진 목표(지표)를 향해 실험을 자동으로 반복하고, 결과를 평가한 뒤 개선안을 보존하거나 되돌리는 유지-또는-되돌리기(keep-or-revert) 루프 패턴이다. 원래는 언어 모델 학습 하이퍼파라미터 최적화용이었지만, “측정할 수 있는 모든 것”에 적용 가능한 범용 패턴으로 확장됐다.
주요 카테고리
범용 후속 구현체
| 이름 | 특징 |
|---|---|
| kayba-ai/recursive-improve | 실행 트레이스 캡처 → 실패 패턴 분석 → 타깃 수정 |
| uditgoenka/autoresearch | Claude Code 스킬 형태로 소프트웨어·문서·보안 등 범용화 |
| leo-lilinxiao/codex-autoresearch | Codex 네이티브, 재개(resume) 지원, 병렬 실험 모드 |
| supratikpm/gemini-autoresearch | Gemini CLI 스킬, Google Search 그라운딩 내장, 1M 컨텍스트 |
| davebcn87/pi-autoresearch | 실시간 메트릭·신뢰도 추적·재개 가능 세션 대시보드 → pi-autoresearch |
| gepa-ai/gepa | ICLR 2026 Oral — 유전·Pareto 기반 반사 프롬프트 진화, RL(GRPO) 성능 초과 |
| ShengranHu/ADAS | ICLR 2025 — 메타 에이전트가 에이전트 아키텍처 자체를 코드로 설계 |
연구 자동화 시스템
자동으로 아이디어를 생성하고, 실험을 수행하고, 논문을 작성하는 시스템들이다.
| 이름 | 설명 |
|---|---|
| SakanaAI/AI-Scientist | 아이디어 생성부터 논문 작성까지 완전 자동화 (v1) |
| SakanaAI/AI-Scientist-v2 | 에이전틱 트리 탐색 기반 워크숍급 자율 과학 발견 |
| HKUDS/AI-Researcher | NeurIPS 2025 — 가설→실험→원고→동료 검토 전 과정 자동화 |
| WecoAI/aideml | AIDE — 트리 탐색 기반 ML 엔지니어링 에이전트 |
| openags/Auto-Research | 에이전트 팀이 문헌 검토·가설 생성·실험·원고를 분담 |
| AgentRxiv | 에이전트 실험실들이 프리프린트를 공유하며 서로 성과를 쌓는 협력 플랫폼 |
플랫폼 포트 및 하드웨어 포크
| 이름 | 대상 |
|---|---|
| miolini/autoresearch-macos | Apple Silicon / MPS |
| trevin-creator/autoresearch-mlx | MLX 네이티브, PyTorch/CUDA 의존성 제거 |
| jsegov/autoresearch-win-rtx | Windows + 소비자용 NVIDIA RTX |
| lucasgelfond/autoresearch-webgpu | 브라우저/WebGPU, Python 설치 불필요 |
| Colab/Kaggle T4 포트 | Flash Attention 3 → SDPA, 무료 T4 GPU |
도메인 특화
- 거래(Trading): keep-or-revert 루프를 롤링 샤프 비율 최적화에 적용 (atlas-gic)
- GPU 커널 최적화: 프로파일링 → 커널 편집 → 벤치마크 반복 (autokernel)
- 음성 AI 강화: 적대적 호출자로 보이스 에이전트 프롬프트 반복 개선 (autovoiceevals)
벤치마크
| 이름 | 내용 |
|---|---|
| snap-stanford/MLAgentBench | ML 실험 에이전트 평가, 13개 태스크 |
| openai/mle-bench | OpenAI ML 엔지니어링 에이전트 성능 측정 |
| chchenhui/mlrbench | 201개 오픈 엔드 ML 연구 태스크 (NeurIPS/ICLR/ICML) |
주목할 실사용 사례
- Shopify Liquid 파서 최적화 — Tobi Lütke가 공개한 파싱·렌더링 속도 향상 실험 (PR with traces)
- 야구 생체역학 데이터 — 투구 속도 예측 모델 품질 대폭 개선 (Driveline Research)
- 테니스 XGBoost 예측 — 최적화 설정이 잘못된 경우(reward hacking) 포함 상세 리뷰
- Vesuvius Challenge — 고대 두루마리 잉크 감지 멀티 에이전트 실험 루프
관련 문서
- autoresearch — Karpathy autoresearch 원본 프레임워크 설명·설치·설계 철학
- pi-autoresearch — 실시간 메트릭 대시보드가 포함된 pi-autoresearch 확장
- generic-agent — 시드 코드에서 스스로 성장하는 자기진화 에이전트
- agent-harness — 에이전트 성능을 결정하는 하네스 설계 방법론
- meta-harness — 에이전트 하네스를 자동 탐색·최적화하는 Stanford 프레임워크
참고 자료
- alvinreal/awesome-autoresearch — GitHub 공식 저장소