Evolution Fine-Tuning(EFT)은 진화 탐색(evolutionary search) 과정에서 쌓인 시행착오를 LLM 자체에 학습시키는 중간 학습(mid-training) 방법이다. 기존에는 OpenEvolve 같은 외부 스캐폴드가 새 문제마다 탐색을 실행하고, 문제 해결 후에는 그 경험이 사라졌다. EFT는 이 탐색 trajectory를 supervision으로 바꿔 모델이 다음 문제에서 더 좋은 변이 연산자(mutation operator)처럼 행동하게 만든다.
핵심 아이디어
진화 탐색 trajectory 수집
-> 성공·실패 변이와 선택 과정 정리
-> 지도 학습 데이터로 변환
-> 2B~9B 오픈 모델 파인튜닝
-> 새 최적화 문제에서 더 나은 후보 생성논문은 Finch Collection이라는 156K trajectory 데이터셋을 만든다. 이 데이터셋은 10개 도메인, 371개 최적화 태스크를 포함한다. 학습된 Finch 모델은 22개 보류 태스크에서 기반 모델보다 평균 10.22% 높은 성능을 보였다고 보고한다.
왜 중요한가
LLM 기반 발견 시스템은 이미 GPU 커널 최적화, 수학 추측, 과학 법칙 발견, 조합 최적화에서 성과를 냈다. 하지만 많은 시스템은 강한 모델을 외부 탐색 루프 안에 넣고, 매번 새 문제를 처음부터 푼다.
EFT의 관점은 다르다. 탐색 능력을 스캐폴드에만 두지 않고 모델 가중치 안으로 일부 이전한다. 그러면 작은 오픈 모델도 새 문제에서 “어디를 바꿔볼지”, “언제 되돌아갈지”, “어떤 변이가 유망한지”를 더 잘 추정할 수 있다.
적용 가능 영역
- GPU 커널·시스템 코드 최적화
- 조합 퍼즐과 수학적 추측 탐색
- 과학 모델·법칙 후보 탐색
- 테스트타임 탐색과 결합한 자기 개선 에이전트
다만 EFT는 일반 대화 모델을 곧바로 범용 과학자로 만드는 방법이 아니다. 좋은 trajectory 수집, 안전한 평가 함수, 도메인별 검증, 탐색 비용 관리가 함께 필요하다.
관련 문서
- self-improving-agent-loops — 자기 개선형 에이전트 루프
- autoresearch — LLM 연구를 자율 반복하는 프레임워크
- pi-autoresearch — 코딩 에이전트 기반 실험 반복 루프
- skillopt — 에이전트 스킬을 학습 가능한 산출물로 최적화하는 방법
참고 자료
- Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks — arXiv (2026-06-27)
- Evolution Fine-Tuning 프로젝트 페이지 — Open Galapagos (2026-07-02 확인)