pi-autoresearch – 코딩 에이전트가 실험을 반복하며 성능 개선안을 자동 탐색하는 루프 확장

핵심 아이디어
무엇이 들어 있나
제공 도구
왜 유용한가
사용 예
어디에 쓰면 좋은가
운영 시 주의점
설치
관련 문서
참고 자료

단순히 “코드를 고쳐줘”를 넘어서, 에이전트가 아이디어를 시도하고 벤치마크로 측정한 뒤 나쁜 변경은 버리고 좋은 변경만 남기게 만들고 싶다면 별도의 실험 루프가 필요하다. pi-autoresearch는 터미널 코딩 에이전트 pi 위에 이런 자율 최적화 루프를 얹는 확장으로, 속도·번들 크기·훈련 손실·Lighthouse 점수 같은 최적화 목표를 반복적으로 개선할 수 있게 해준다.

핵심 아이디어

흐름은 단순하다.

개선 목표를 정한다.
에이전트가 변경안을 시도한다.
벤치마크를 실행해 수치로 측정한다.
결과가 좋으면 유지하고, 나쁘면 되돌린다.
이 과정을 반복한다.

즉, “한 번의 패치”가 아니라 “측정 가능한 실험 루프”를 에이전트에 부여하는 도구다.

무엇이 들어 있나

구성 요소	설명
Extension	도구, 라이브 위젯, `/autoresearch` 대시보드
Skill	목표·명령·메트릭·범위를 수집해 세션 시작
Session files	`autoresearch.md`, `autoresearch.sh`, `autoresearch.jsonl`

제공 도구

init_experiment — 세션 이름, 메트릭, 방향성 초기화
run_experiment — 명령 실행, 시간 측정, 출력 수집
log_experiment — 결과 기록, 자동 커밋, 대시보드 갱신

왜 유용한가

기존 코딩 에이전트	pi-autoresearch
한 번 수정하고 끝	실험과 측정을 반복
개선 여부를 감으로 판단	수치 메트릭으로 비교
장기 최적화에 약함	반복 루프로 점진적 개선

사용 예

/autoresearch optimize unit test runtime, monitor correctness
/autoresearch model training, run 5 minutes of train.py and note the loss ratio as optimization target

어디에 쓰면 좋은가

테스트 시간 단축
번들 크기 축소
빌드 속도 개선
모델 학습 루프 실험
Lighthouse 성능 점수 개선

운영 시 주의점

자율 루프는 토큰을 빠르게 소모하므로 반복 횟수 제한이 중요하다.
메트릭이 노이즈가 심하면 MAD 기반 confidence 점수를 함께 봐야 한다.
autoresearch.checks.sh 같은 사후 검증 스크립트로 성능 개선이 기능 회귀를 만들지 않게 막아야 한다.

설치

pi install https://github.com/davebcn87/pi-autoresearch

참고 자료

davebcn87/pi-autoresearch

AI Sparkup