단순히 “코드를 고쳐줘”를 넘어서, 에이전트가 아이디어를 시도하고 벤치마크로 측정한 뒤 나쁜 변경은 버리고 좋은 변경만 남기게 만들고 싶다면 별도의 실험 루프가 필요하다. pi-autoresearch는 터미널 코딩 에이전트 pi 위에 이런 자율 최적화 루프를 얹는 확장으로, 속도·번들 크기·훈련 손실·Lighthouse 점수 같은 최적화 목표를 반복적으로 개선할 수 있게 해준다.
핵심 아이디어
흐름은 단순하다.
- 개선 목표를 정한다.
- 에이전트가 변경안을 시도한다.
- 벤치마크를 실행해 수치로 측정한다.
- 결과가 좋으면 유지하고, 나쁘면 되돌린다.
- 이 과정을 반복한다.
즉, “한 번의 패치”가 아니라 “측정 가능한 실험 루프”를 에이전트에 부여하는 도구다.
무엇이 들어 있나
| 구성 요소 | 설명 |
|---|---|
| Extension | 도구, 라이브 위젯, /autoresearch 대시보드 |
| Skill | 목표·명령·메트릭·범위를 수집해 세션 시작 |
| Session files | autoresearch.md, autoresearch.sh, autoresearch.jsonl |
제공 도구
init_experiment— 세션 이름, 메트릭, 방향성 초기화run_experiment— 명령 실행, 시간 측정, 출력 수집log_experiment— 결과 기록, 자동 커밋, 대시보드 갱신
왜 유용한가
| 기존 코딩 에이전트 | pi-autoresearch |
|---|---|
| 한 번 수정하고 끝 | 실험과 측정을 반복 |
| 개선 여부를 감으로 판단 | 수치 메트릭으로 비교 |
| 장기 최적화에 약함 | 반복 루프로 점진적 개선 |
사용 예
/autoresearch optimize unit test runtime, monitor correctness
/autoresearch model training, run 5 minutes of train.py and note the loss ratio as optimization target어디에 쓰면 좋은가
- 테스트 시간 단축
- 번들 크기 축소
- 빌드 속도 개선
- 모델 학습 루프 실험
- Lighthouse 성능 점수 개선
운영 시 주의점
- 자율 루프는 토큰을 빠르게 소모하므로 반복 횟수 제한이 중요하다.
- 메트릭이 노이즈가 심하면 MAD 기반 confidence 점수를 함께 봐야 한다.
autoresearch.checks.sh같은 사후 검증 스크립트로 성능 개선이 기능 회귀를 만들지 않게 막아야 한다.
설치
pi install https://github.com/davebcn87/pi-autoresearch관련 문서
- mini-coding-agent — 코딩 에이전트 루프의 기본 구조 이해
- codeburn — AI 코딩 에이전트 사용량 추적