Code as Agent Harness는 코드가 LLM의 산출물에 머무르지 않고, 에이전트의 reasoning, acting, environment modeling, execution-based verification을 떠받치는 operational substrate가 된다는 관점을 정리한 서베이 논문이다. 즉 코드 자체가 에이전트 하네스의 핵심 매체가 된다는 주장이다.
세 층위
논문은 code-as-harness를 세 층으로 나눠 본다.
| 층위 | 설명 |
|---|---|
| Harness interface | 코드가 에이전트의 추론, 행동, 환경 모델링을 연결하는 접점 |
| Harness mechanisms | planning, memory, tool use, feedback-driven control로 장기 실행을 안정화하는 메커니즘 |
| Harness scaling | 단일 에이전트에서 멀티에이전트 협업, 리뷰, 검증으로 확장되는 구조 |
이 관점에서는 코드가 “모델이 작성해야 할 답”이 아니라, 에이전트가 세계를 조작하고 검증하는 실행 가능한 표현이다.
왜 중요한가
코딩 에이전트, GUI/OS 자동화, 과학 발견, DevOps, 엔터프라이즈 워크플로는 모두 실행 가능한 중간 산출물이 필요하다. 자연어 계획만으로는 상태 추적, 검증, 재사용, 회귀 방지가 어렵다. 코드는 실행되고, 테스트되고, diff로 비교되고, 다른 에이전트가 이어받을 수 있다는 점에서 하네스의 공통 언어가 된다.
열린 과제
- 최종 성공률을 넘어 하네스 행동 자체를 평가하는 지표
- 불완전한 피드백 아래에서의 검증
- 하네스 개선이 기존 능력을 깨지 않게 하는 회귀 방지
- 여러 에이전트가 공유 상태를 일관되게 다루는 방법
- 안전 중요 행동에 대한 사람의 감독
- 멀티모달 환경으로의 확장
관련 문서
- agent-harness — 에이전트 성능을 결정하는 하네스 설계
- coding-agent-tips-harness-comparison-2026 — 코딩 에이전트 하네스 비교
- agentic-loops — 스스로 피드백을 받아 수정하는 AI 에이전트 루프 설계
- ai-agent-evaluation — 긴 작업과 도구 사용을 검증하는 평가 하네스
참고 자료
- Code as Agent Harness — arXiv 2605.18747 (2026-05-18)