DarkForest는 여러 LLM 에이전트가 협력해 추론 문제를 풀 때, 에이전트 간 통신을 최소화해 오류 전파를 막고 정확도를 높이는 조율 프레임워크다. arXiv 논문(2605.25188)으로 공개됐으며, 6개 추론 벤치마크에서 최강 베이스라인 대비 최대 30.7% 향상, 통신 집약적 방식 대비 최대 6.5배 토큰 절감을 입증했다.
기존 접근법의 문제
멀티에이전트 LLM 시스템은 여러 에이전트의 출력을 결합해 추론 품질을 높이려 한다. 그러나 에이전트가 서로의 응답이나 추론 과정을 공유하면 두 가지 문제가 생긴다:
- 오류 전파: 한 에이전트의 잘못된 중간 추론이 다른 에이전트에 채택·증폭되어 자신감 있는 오답을 만들어낸다.
- 높은 통신 비용: 다중 라운드 교환은 토큰 소비, 지연, 추론 비용을 크게 늘린다.
DarkForest의 접근법
이름처럼 에이전트들을 어둠 속에 두는 방식이다. 핵심 흐름은 네 단계다:
- 독립 추론: 각 에이전트가 다른 에이전트의 출력을 보지 않고 독립적으로 답을 생성한다.
- 구조화된 파싱: 각 응답을 구조화된 후보 레코드로 변환한다.
- 클러스터링: 의미적으로 동등한 후보들을 그룹으로 묶는다.
- 보정된 신뢰 분포 추정: 에이전트 신뢰도, 자신감, 파싱 품질, 지지 패턴 신뢰도, 독립성 보정을 고려해 각 클러스터에 대한 신뢰 분포를 추정한다.
코디네이터는 이 신뢰 상태에서 정책이 허용하는 증거만 받아 최종 답을 결정한다. 에이전트 간 직접 통신은 없다.
성능
| 지표 | 결과 |
|---|---|
| 정확도 개선 | 최강 베이스라인 대비 최대 +30.7% |
| 토큰 절감 | 통신 집약적 방식 대비 최대 6.5배 |
| 평가 벤치마크 | 6개 추론 벤치마크 |
어떤 케이스에 유용한가
- 에이전트 앙상블로 추론 정확도를 높이고 싶지만, 라운드 트립 통신 비용이 부담스러운 경우
- 에이전트 간 오류 전파가 우려되는 복잡한 추론 작업
- 다수결이나 토론 기반 방식보다 더 신뢰할 수 있는 앙상블 전략이 필요한 경우
논문 정보
- 제목: DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs
- arXiv: 2605.25188