Awesome Autoresearch – Karpathy 자율 개선 루프 에코시스템 큐레이션

autoresearch란
주요 카테고리
범용 후속 구현체
연구 자동화 시스템
플랫폼 포트 및 하드웨어 포크
도메인 특화
벤치마크
주목할 실사용 사례
관련 문서
참고 자료

Awesome Autoresearch는 Andrej Karpathy의 autoresearch 프로젝트에서 영감을 받은 자율 개선 루프(autonomous improvement loop), 연구 에이전트, 파생 구현체를 수집한 고신호 큐레이션 목록이다. “Boring Dystopia Development”(@alvinunreal)가 관리하며 CC0 라이선스로 공개되어 있다.

autoresearch란

Karpathy의 autoresearch는 AI 에이전트가 정해진 목표(지표)를 향해 실험을 자동으로 반복하고, 결과를 평가한 뒤 개선안을 보존하거나 되돌리는 유지-또는-되돌리기(keep-or-revert) 루프 패턴이다. 원래는 언어 모델 학습 하이퍼파라미터 최적화용이었지만, “측정할 수 있는 모든 것”에 적용 가능한 범용 패턴으로 확장됐다.

주요 카테고리

범용 후속 구현체

이름	특징
kayba-ai/recursive-improve	실행 트레이스 캡처 → 실패 패턴 분석 → 타깃 수정
uditgoenka/autoresearch	Claude Code 스킬 형태로 소프트웨어·문서·보안 등 범용화
leo-lilinxiao/codex-autoresearch	Codex 네이티브, 재개(resume) 지원, 병렬 실험 모드
supratikpm/gemini-autoresearch	Gemini CLI 스킬, Google Search 그라운딩 내장, 1M 컨텍스트
davebcn87/pi-autoresearch	실시간 메트릭·신뢰도 추적·재개 가능 세션 대시보드 → pi-autoresearch
gepa-ai/gepa	ICLR 2026 Oral — 유전·Pareto 기반 반사 프롬프트 진화, RL(GRPO) 성능 초과
ShengranHu/ADAS	ICLR 2025 — 메타 에이전트가 에이전트 아키텍처 자체를 코드로 설계

연구 자동화 시스템

자동으로 아이디어를 생성하고, 실험을 수행하고, 논문을 작성하는 시스템들이다.

이름	설명
SakanaAI/AI-Scientist	아이디어 생성부터 논문 작성까지 완전 자동화 (v1)
SakanaAI/AI-Scientist-v2	에이전틱 트리 탐색 기반 워크숍급 자율 과학 발견
HKUDS/AI-Researcher	NeurIPS 2025 — 가설→실험→원고→동료 검토 전 과정 자동화
WecoAI/aideml	AIDE — 트리 탐색 기반 ML 엔지니어링 에이전트
openags/Auto-Research	에이전트 팀이 문헌 검토·가설 생성·실험·원고를 분담
AgentRxiv	에이전트 실험실들이 프리프린트를 공유하며 서로 성과를 쌓는 협력 플랫폼

플랫폼 포트 및 하드웨어 포크

이름	대상
miolini/autoresearch-macos	Apple Silicon / MPS
trevin-creator/autoresearch-mlx	MLX 네이티브, PyTorch/CUDA 의존성 제거
jsegov/autoresearch-win-rtx	Windows + 소비자용 NVIDIA RTX
lucasgelfond/autoresearch-webgpu	브라우저/WebGPU, Python 설치 불필요
Colab/Kaggle T4 포트	Flash Attention 3 → SDPA, 무료 T4 GPU

도메인 특화

거래(Trading): keep-or-revert 루프를 롤링 샤프 비율 최적화에 적용 (atlas-gic)
GPU 커널 최적화: 프로파일링 → 커널 편집 → 벤치마크 반복 (autokernel)
음성 AI 강화: 적대적 호출자로 보이스 에이전트 프롬프트 반복 개선 (autovoiceevals)

벤치마크

이름	내용
snap-stanford/MLAgentBench	ML 실험 에이전트 평가, 13개 태스크
openai/mle-bench	OpenAI ML 엔지니어링 에이전트 성능 측정
chchenhui/mlrbench	201개 오픈 엔드 ML 연구 태스크 (NeurIPS/ICLR/ICML)

주목할 실사용 사례

Shopify Liquid 파서 최적화 — Tobi Lütke가 공개한 파싱·렌더링 속도 향상 실험 (PR with traces)
야구 생체역학 데이터 — 투구 속도 예측 모델 품질 대폭 개선 (Driveline Research)
테니스 XGBoost 예측 — 최적화 설정이 잘못된 경우(reward hacking) 포함 상세 리뷰
Vesuvius Challenge — 고대 두루마리 잉크 감지 멀티 에이전트 실험 루프

참고 자료

alvinreal/awesome-autoresearch — GitHub 공식 저장소

Like?

AI Sparkup