코드가 에이전트의 ‘뼈대’가 됐다, Code as Agent Harness 논문 읽기

2026-05-26

﹒

2 minutes

AI 에이전트에게 코드를 짜달라고 시키는 시대는 이미 지났습니다. 이제 에이전트는 코드를 만들 뿐 아니라, 코드 위에서 생각하고, 코드를 통해 행동하고, 코드 안에 기억을 저장합니다. 코드가 결과물이 아니라 에이전트의 운영 기반 자체가 된 것입니다.

사진 출처: Code as Agent Harness (arXiv, 2026)

UIUC·Meta·Stanford 공동 연구팀이 2026년 5월 발표한 서베이 논문 “Code as Agent Harness”는 이 변화를 하나의 통합된 관점으로 정리합니다. 코드를 에이전트의 ‘하네스(harness)’, 즉 말에 채우는 마구처럼 에이전트의 능력 전체를 묶고 통제하는 구조적 기반으로 보는 시각입니다.

출처: Code as Agent Harness – arXiv (UIUC·Meta·Stanford, 2026)

코드가 ‘결과물’에서 ‘인프라’로

기존의 관점에서 코드는 LLM이 만들어내는 최종 산출물이었습니다. “파이썬 코드 짜줘”라고 물으면 코드를 받는 방식이죠. 하지만 에이전트 시스템이 복잡해지면서 이 그림은 달라졌습니다.

논문은 에이전트 시스템을 구성하는 세 요소를 구분합니다.

모델 내부 능력 — 추론, 지각, 계획 같은 모델 자체의 역량
시스템이 제공하는 하네스 인프라 — 미리 정의된 도구, API, 샌드박스, 메모리 시스템, 검증기 등
에이전트가 직접 만드는 코드 아티팩트 — 실행 루프 안에서 에이전트가 생성·수정·공유하는 코드 객체

세 번째 요소가 이 논문의 핵심입니다. 에이전트가 스스로 만들고 실행하고 고치면서 재사용하는 코드, 즉 회귀 테스트, 임시 도구, 실행 가능한 워크플로우, 재사용 가능한 스킬 같은 것들이 에이전트의 진짜 ‘뼈대’가 된다는 주장입니다.

하네스의 3개 레이어

논문은 코드가 에이전트 안에서 작동하는 방식을 세 층으로 나눕니다.

첫 번째 레이어: 하네스 인터페이스

코드가 추론·행동·환경 모델링의 매개체가 되는 층입니다. 추론 단계에서는 중간 계산을 코드로 외부화합니다. 예를 들어 수학 문제를 풀 때 머릿속으로 계산하는 대신 파이썬 코드로 작성해 실행하고, 그 결과로 추론을 검증하는 방식입니다. 행동 단계에서는 생성된 프로그램이 로봇 제어, GUI 조작, 소프트웨어 실행의 정책으로 기능합니다. 환경 표현 단계에서는 코드베이스, 실행 로그, 테스트 결과가 에이전트가 상호작용하는 ‘세계’의 상태를 나타냅니다.

두 번째 레이어: 하네스 메커니즘

에이전트가 단발성 생성을 넘어 장기 실행에서 안정적으로 동작하게 만드는 층입니다. 계획(planning)은 복잡한 소프트웨어 작업을 분해하고 실행 경로를 구조화합니다. 메모리는 작업 상태를 유지하고 과거 경험을 재사용 가능한 형태로 저장합니다. 도구 사용은 API, 저장소, 실행 환경에 연결합니다. 그리고 피드백 기반 제어가 실행 오류와 테스트 결과를 받아 코드를 반복 수정합니다. 실패를 다음 수정의 입력으로 삼는 루프가 핵심입니다.

세 번째 레이어: 하네스 확장

단일 에이전트에서 멀티 에이전트로 확장하는 층입니다. 여러 에이전트가 같은 코드 아티팩트를 공유하면서 관리자·계획자·코더·리뷰어·테스터 역할을 분담합니다. 저장소, 테스트, 실행 로그가 에이전트들이 공동으로 참조하는 작업 공간이 됩니다.

코드 하네스가 중요해진 이유

Claude Code, Codex 같은 실제 시스템이 이미 이 방식으로 작동합니다. 그리고 이 시스템들을 통해 하나가 드러났습니다. 에이전트의 병목은 모델의 추론 능력만이 아니라, 모델 출력을 장기 실행과 연결하는 시스템의 신뢰성, 즉 하네스의 품질이기도 하다는 것입니다.

논문은 과학적 발견, GUI 자동화, DevOps, 개인화 에이전트 등 다양한 영역에서 이 패턴이 이미 나타나고 있음을 보여주는데, 적용 분야별 사례와 향후 과제(불완전한 피드백 하에서의 검증, 멀티 에이전트 공유 상태 유지, 안전 임계 행동에서의 인간 감독 등)는 원문에 상세히 정리되어 있습니다.

참고자료: Awesome-Code-as-Agent-Harness-Papers – GitHub

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

코드가 에이전트의 ‘뼈대’가 됐다, Code as Agent Harness 논문 읽기

코드가 ‘결과물’에서 ‘인프라’로

하네스의 3개 레이어

코드 하네스가 중요해진 이유

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

에이전트가 줄을 써도 판정은 사람 몫이다, “아우터 루프”라는 책임론

RTX 5090은 못 돌리는 70B 모델, 미니PC는 어떻게 돌릴까

RAG가 그럴듯한 답을 내놓고도 틀리는 이유, 세 도구가 보는 방식

AI 에이전트가 매번 처음부터 시작하는 이유, 정보가 아니라 재사용의 문제였다