AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Meta-Harness – 에이전트 하네스를 자동으로 최적화하는 엔드투엔드 프레임워크

2026-04-21 / Last Modified: 2026-04-22

목차

배경
핵심 개념
참조 실험
사용 방법
논문 정보
관련 문서

Meta-Harness는 Stanford IRIS Lab이 발표한 논문의 참조 구현으로, 고정된 베이스 모델 주위에서 무엇을 저장·검색·제시할지 결정하는 하네스(harness) 코드를 자동으로 탐색하고 최적화한다. “모델을 바꾸는 것”이 아니라 “모델을 감싸는 코드를 바꾸는 것”으로 성능을 높이는 접근이다.

배경

에이전트 성능은 모델 자체만큼이나 하네스(메모리 시스템, 컨텍스트 구성, 스캐폴드)에 의존한다. 하지만 최적 하네스 설계는 수동 엔지니어링으로 이루어져 왔다. Meta-Harness는 이 탐색 과정을 자동화한다.

핵심 개념

하네스(Harness): 고정 베이스 모델 주위에서 어떤 정보를 저장·검색·노출할지 결정하는 코드 계층
메타 최적화: 하네스 설계 공간을 탐색해 태스크별 최적 구성을 자동으로 발견
프로포저 에이전트: 하네스 변경을 제안하는 에이전트 (기본값: Claude Code)

참조 실험

실험	설명
텍스트 분류	메모리 시스템 탐색으로 분류 성능 향상
Terminal-Bench 2.0	스캐폴드 진화(scaffold evolution)로 터미널 태스크 성능 개선

사용 방법

# 텍스트 분류 실험
cd reference_examples/text_classification
uv sync
uv run python meta_harness.py --iterations 1

# Terminal-Bench 2 스모크 테스트
cd reference_examples/terminal_bench_2
uv sync
uv run bash scripts/run_eval.sh agents.baseline_kira:AgentHarness full 1 1 -i extract-elf

새 도메인에 적용하려면 Claude Code 같은 코딩 어시스턴트에게 ONBOARDING.md를 전달해 도메인 사양(domain_spec.md)을 작성한 뒤 절차를 따른다.

논문 정보

arXiv: 2603.28052
저자: Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn
GitHub: stanford-iris-lab/meta-harness

관련 문서

agent-harness — 에이전트 하네스 엔지니어링 방법론 개요

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)