Meta-Harness는 Stanford IRIS Lab이 발표한 논문의 참조 구현으로, 고정된 베이스 모델 주위에서 무엇을 저장·검색·제시할지 결정하는 하네스(harness) 코드를 자동으로 탐색하고 최적화한다. “모델을 바꾸는 것”이 아니라 “모델을 감싸는 코드를 바꾸는 것”으로 성능을 높이는 접근이다.
배경
에이전트 성능은 모델 자체만큼이나 하네스(메모리 시스템, 컨텍스트 구성, 스캐폴드)에 의존한다. 하지만 최적 하네스 설계는 수동 엔지니어링으로 이루어져 왔다. Meta-Harness는 이 탐색 과정을 자동화한다.
핵심 개념
- 하네스(Harness): 고정 베이스 모델 주위에서 어떤 정보를 저장·검색·노출할지 결정하는 코드 계층
- 메타 최적화: 하네스 설계 공간을 탐색해 태스크별 최적 구성을 자동으로 발견
- 프로포저 에이전트: 하네스 변경을 제안하는 에이전트 (기본값: Claude Code)
참조 실험
| 실험 | 설명 |
|---|---|
| 텍스트 분류 | 메모리 시스템 탐색으로 분류 성능 향상 |
| Terminal-Bench 2.0 | 스캐폴드 진화(scaffold evolution)로 터미널 태스크 성능 개선 |
사용 방법
# 텍스트 분류 실험
cd reference_examples/text_classification
uv sync
uv run python meta_harness.py --iterations 1
# Terminal-Bench 2 스모크 테스트
cd reference_examples/terminal_bench_2
uv sync
uv run bash scripts/run_eval.sh agents.baseline_kira:AgentHarness full 1 1 -i extract-elf새 도메인에 적용하려면 Claude Code 같은 코딩 어시스턴트에게 ONBOARDING.md를 전달해 도메인 사양(domain_spec.md)을 작성한 뒤 절차를 따른다.
논문 정보
- arXiv: 2603.28052
- 저자: Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn
- GitHub: stanford-iris-lab/meta-harness
관련 문서
- agent-harness — 에이전트 하네스 엔지니어링 방법론 개요