AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Awesome Autoresearch – Karpathy 자율 개선 루프 에코시스템 큐레이션

Awesome Autoresearch는 Andrej Karpathy의 autoresearch 프로젝트에서 영감을 받은 자율 개선 루프(autonomous improvement loop), 연구 에이전트, 파생 구현체를 수집한 고신호 큐레이션 목록이다. “Boring Dystopia Development”(@alvinunreal)가 관리하며 CC0 라이선스로 공개되어 있다.

autoresearch란

Karpathy의 autoresearch는 AI 에이전트가 정해진 목표(지표)를 향해 실험을 자동으로 반복하고, 결과를 평가한 뒤 개선안을 보존하거나 되돌리는 유지-또는-되돌리기(keep-or-revert) 루프 패턴이다. 원래는 언어 모델 학습 하이퍼파라미터 최적화용이었지만, “측정할 수 있는 모든 것”에 적용 가능한 범용 패턴으로 확장됐다.

주요 카테고리

범용 후속 구현체

이름특징
kayba-ai/recursive-improve실행 트레이스 캡처 → 실패 패턴 분석 → 타깃 수정
uditgoenka/autoresearchClaude Code 스킬 형태로 소프트웨어·문서·보안 등 범용화
leo-lilinxiao/codex-autoresearchCodex 네이티브, 재개(resume) 지원, 병렬 실험 모드
supratikpm/gemini-autoresearchGemini CLI 스킬, Google Search 그라운딩 내장, 1M 컨텍스트
davebcn87/pi-autoresearch실시간 메트릭·신뢰도 추적·재개 가능 세션 대시보드 → pi-autoresearch
gepa-ai/gepaICLR 2026 Oral — 유전·Pareto 기반 반사 프롬프트 진화, RL(GRPO) 성능 초과
ShengranHu/ADASICLR 2025 — 메타 에이전트가 에이전트 아키텍처 자체를 코드로 설계

연구 자동화 시스템

자동으로 아이디어를 생성하고, 실험을 수행하고, 논문을 작성하는 시스템들이다.

이름설명
SakanaAI/AI-Scientist아이디어 생성부터 논문 작성까지 완전 자동화 (v1)
SakanaAI/AI-Scientist-v2에이전틱 트리 탐색 기반 워크숍급 자율 과학 발견
HKUDS/AI-ResearcherNeurIPS 2025 — 가설→실험→원고→동료 검토 전 과정 자동화
WecoAI/aidemlAIDE — 트리 탐색 기반 ML 엔지니어링 에이전트
openags/Auto-Research에이전트 팀이 문헌 검토·가설 생성·실험·원고를 분담
AgentRxiv에이전트 실험실들이 프리프린트를 공유하며 서로 성과를 쌓는 협력 플랫폼

플랫폼 포트 및 하드웨어 포크

이름대상
miolini/autoresearch-macosApple Silicon / MPS
trevin-creator/autoresearch-mlxMLX 네이티브, PyTorch/CUDA 의존성 제거
jsegov/autoresearch-win-rtxWindows + 소비자용 NVIDIA RTX
lucasgelfond/autoresearch-webgpu브라우저/WebGPU, Python 설치 불필요
Colab/Kaggle T4 포트Flash Attention 3 → SDPA, 무료 T4 GPU

도메인 특화

  • 거래(Trading): keep-or-revert 루프를 롤링 샤프 비율 최적화에 적용 (atlas-gic)
  • GPU 커널 최적화: 프로파일링 → 커널 편집 → 벤치마크 반복 (autokernel)
  • 음성 AI 강화: 적대적 호출자로 보이스 에이전트 프롬프트 반복 개선 (autovoiceevals)

벤치마크

이름내용
snap-stanford/MLAgentBenchML 실험 에이전트 평가, 13개 태스크
openai/mle-benchOpenAI ML 엔지니어링 에이전트 성능 측정
chchenhui/mlrbench201개 오픈 엔드 ML 연구 태스크 (NeurIPS/ICLR/ICML)

주목할 실사용 사례

  • Shopify Liquid 파서 최적화 — Tobi Lütke가 공개한 파싱·렌더링 속도 향상 실험 (PR with traces)
  • 야구 생체역학 데이터 — 투구 속도 예측 모델 품질 대폭 개선 (Driveline Research)
  • 테니스 XGBoost 예측 — 최적화 설정이 잘못된 경우(reward hacking) 포함 상세 리뷰
  • Vesuvius Challenge — 고대 두루마리 잉크 감지 멀티 에이전트 실험 루프

관련 문서

  • autoresearch — Karpathy autoresearch 원본 프레임워크 설명·설치·설계 철학
  • pi-autoresearch — 실시간 메트릭 대시보드가 포함된 pi-autoresearch 확장
  • generic-agent — 시드 코드에서 스스로 성장하는 자기진화 에이전트
  • agent-harness — 에이전트 성능을 결정하는 하네스 설계 방법론
  • meta-harness — 에이전트 하네스를 자동 탐색·최적화하는 Stanford 프레임워크

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)