SearchSwarm은 중국인민대학교(RUC) NLPIR 연구팀이 2026년 6월 발표한 딥 리서치 특화 멀티에이전트 프레임워크다. LLM이 긴 수평선(long-horizon) 태스크를 처리할 때 부딪히는 컨텍스트 윈도우 한계를 “위임 지능(delegation intelligence)”으로 극복한다는 핵심 아이디어를 제안한다.
문제: 컨텍스트 윈도우는 유한하다
복잡한 리서치 태스크는 수천 개의 검색 결과, 요약, 중간 추론을 누적하며 컨텍스트가 폭발적으로 늘어난다. 메인 에이전트가 모든 정보를 직접 처리하면 금방 윈도우 한계에 도달한다.
SearchSwarm의 해법은 메인 에이전트가 서브태스크를 서브에이전트에 위임하고, 서브에이전트는 실행 결과를 요약된 형태로만 반환하는 것이다. 메인 에이전트의 컨텍스트 예산은 보존되고, 작업은 병렬·심층 탐색이 가능해진다.
위임 지능(Delegation Intelligence)
위임 지능은 세 가지 능력을 포함한다:
- 태스크 분해 — 복잡한 목표를 독립 실행 가능한 서브태스크로 나눈다
- 위임 시점 판단 — 언제, 무엇을 서브에이전트에 맡길지 결정한다
- 결과 통합 — 서브에이전트의 요약 결과를 메인 워크플로에 병합한다
이 능력은 자연 발생 텍스트에 훈련 데이터가 거의 없어, 별도의 합성 데이터 생성과 SFT(Supervised Fine-Tuning)가 필요하다.
훈련 방법론
연구팀은 harness 기반 경로 수집 방식을 제안한다. 모델이 고품질 태스크 분해와 위임을 수행하도록 가이드하는 실행 하네스를 설계한 뒤, 하네스가 생성한 궤적(trajectory)을 SFT 데이터로 활용해 위임 지능을 모델 가중치에 내재화한다.
성능
SearchSwarm-30B-A3B는 동급(약 30B 규모) 모델 중 최고 수준의 딥 리서치 성능을 달성했다:
| 벤치마크 | 점수 |
|---|---|
| BrowseComp | 68.1 |
| BrowseComp-ZH | 73.3 |
BrowseComp는 OpenAI가 공개한 딥 리서치 난이도 벤치마크로, 장기 웹 탐색과 종합적 추론을 요구한다.
공개 자원
- 하네스(harness) 코드
- 모델 가중치 (SearchSwarm-30B-A3B)
- SFT 훈련 데이터
세 가지 모두 오픈소스로 공개 예정이다.
누가 쓰면 좋을까
- AI 리서치 팀: 위임 지능 학습 방법론을 자체 모델에 적용하고 싶은 연구자
- 딥 리서치 제품 개발자: 긴 수평선 태스크를 처리하는 에이전트를 설계하는 엔지니어
- 멀티에이전트 아키텍처 연구자: 컨텍스트 한계 극복 전략을 비교·연구하는 경우
관련 문서
- arbor — 가설 트리 기반 자율 연구 에이전트 (실험 자동화 특화)
- agentic-search — AI 에이전트가 직접 검색·비교·결정하는 패러다임