HALO – RLM 기반 에이전트 하네스 자동 최적화 루프

HALO 루프
왜 일반 목적 LLM이 아닌 RLM인가
벤치마크 결과 (AppWorld)
누가 사용하면 좋은가
설치 및 사용
관련 문서

HALO(Hierarchical Agent Loop Optimization)는 AI 에이전트 하네스(실행 스캐폴딩)를 RLM(Reasoning Language Model)으로 자동 개선하는 오픈소스 방법론이다. 에이전트 실행 트레이스를 OpenTelemetry 형식으로 수집하고, 전문 RLM이 시스템 수준의 실패 패턴을 분석한 뒤, 코딩 에이전트(Cursor, Claude Code 등)에게 구체적인 하네스 수정을 지시한다. context-labs가 개발하고 PyPI(halo-engine)에 배포했다.

HALO 루프

HALO의 핵심은 단순한 4단계 반복 사이클이다:

트레이스 수집 — 에이전트 하네스 실행 시 OpenTelemetry 호환 트레이스를 기록
RLM 분석 — HALO-RLM 엔진이 트레이스를 분해해 공통 실패 모드와 시스템 수준 문제를 보고서로 작성
하네스 수정 — 보고서를 Claude Code·Cursor 등 코딩 에이전트에 입력해 하네스 코드 변경 생성·적용
재배포 및 반복 — 수정된 하네스를 배포하고 새 트레이스로 사이클 재시작

고트래픽 프로덕션 환경일수록 실행 간 분산이 커져 HALO가 탐지하기 좋은 시스템 문제가 더 많이 발생한다.

왜 일반 목적 LLM이 아닌 RLM인가

Claude Code 같은 범용 코딩 에이전트는 트레이스 분석에 적합하지 않다. 트레이스가 매우 길어질 수 있고, 단일 트레이스의 오류에 과적합해 하네스 수준의 체계적 문제를 놓치는 경향이 있다. HALO는 이를 위해 트레이스 전반에서 통계적 패턴을 추출하는 전용 RLM을 설계했다.

벤치마크 결과 (AppWorld)

AppWorld는 Spotify, Venmo, 파일 시스템 등 멀티앱 서비스 사용 에이전트 작업 벤치마크다. HALO는 모델 가중치 변경 없이 하네스만 최적화해 다음 성능 향상을 달성했다:

모델	dev SGC (baseline → HALO)	test_normal SGC (baseline → HALO)
Gemini 3 Flash	36.8% → 52.6% (+15.8p)	37.5% → 48.2% (+10.7p)
Sonnet 4.6	73.7% → 89.5% (+15.8p)	62.5% → 73.2% (+10.7p)

HALO가 식별한 실패 원인: 환각된 도구 호출, 도구 인자 중복, 거절 루프, 의미적 정확성 문제.

누가 사용하면 좋은가

프로덕션 에이전트를 운영하는 팀: 트레이스가 쌓일수록 개선 방향이 명확해진다
하네스 설계자: 어떤 프롬프트·도구 구성이 실패를 유발하는지 데이터로 파악하고 싶을 때
모델 교체 없이 성능을 높이고 싶을 때: 하네스 최적화만으로 10%p 이상의 벤치마크 향상 가능

설치 및 사용

pip install halo-engine
halo --help

# 트레이스 파일로 분석 실행
export OPENAI_API_KEY=...
halo path_to_your_traces.jsonl -p "오류를 진단하고 수정 방안을 제안하라"

OpenAI Agents SDK 통합 방법은 공식 문서를 참조한다.

라이선스: MIT
GitHub: context-labs/halo

AI Sparkup