BrowseComp 1위 모델이 진짜 검색엔 꼴찌, AI 벤치마크의 치명적 맹점

2026-06-03

﹒

AI 인사이트

﹒

2 minutes

AI 검색 에이전트가 높은 벤치마크 점수를 받는 비결이 있습니다. 바로 검색을 별로 하지 않는 것이죠. 하얼빈공업대와 샤오훙수 공동 연구팀이 실험으로 이 아이러니를 입증했습니다.

사진 출처: The Decoder

GPT-5.4, Kimi K2.6, DeepSeek-V4-Pro 같은 최신 모델들은 AI 검색 에이전트 평가에서 자주 쓰이는 BrowseComp 벤치마크에서 계속 점수를 높여왔습니다. 연구팀은 이 점수가 실제 검색 능력을 반영하는지 의심했고, 세 가지 실험으로 그 실체를 드러냈습니다.

출처: LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know? – arxiv (Fan et al., 2026)

검색 없이도 절반 가까이 맞힌다

연구팀은 먼저 모든 검색·브라우징 도구를 차단한 채 BrowseComp 문제를 풀게 했습니다. MiniMax M2.5는 44.5%, 중국어 버전인 BrowseComp-ZH에서 Kimi K2.6은 62%를 맞혔습니다. 인터넷 없이도 절반 가까이, 경우에 따라선 절반 이상을 맞힌 셈입니다.

연구팀은 이 현상을 IKD(Intrinsic Knowledge Dependence), 즉 ‘내재적 지식 의존’이라 이름 붙였습니다. 모델이 학습 과정에서 이미 흡수한 정보로 답을 꺼내는 구조입니다. BrowseComp의 질문들이 시간이 흐르면서 자연스럽게 모델의 파라미터 속으로 스며든 것입니다.

검색하면 오히려 틀린다

두 번째 실험이 더 결정적입니다. 연구팀은 검색 인터페이스는 그대로 두되, 정답을 지지하는 문서들을 검색 인덱스에서 모두 제거했습니다. 에이전트는 검색을 할 수 있지만, 찾아봐야 도움되는 결과가 없는 상황입니다.

이 상태에서 점수는 도구 없을 때보다 오히려 떨어졌습니다. MiniMax M2.5가 44.5%에서 8.0%로, Kimi K2.6이 25.5%에서 2.3%로 급락했습니다. 검색이 성능을 높이기는커녕 끌어내린 겁니다.

이유는 검색 경로 분석에서 드러납니다. 에이전트가 날리는 검색 쿼리의 절반 이상이 새로 발견한 정보가 아닌, 자기 자신의 추론에서 나왔습니다. 검색 결과에서 관련 근거가 나왔을 때 실제로 활용하는 비율도 30% 남짓에 불과했습니다. 새로운 증거를 찾는 루프가 아니라, 자기 가설을 확인하는 루프로 돌고 있었습니다.

‘기억 우회로’를 막자 순위가 뒤집혔다

연구팀은 이 문제를 해결하기 위해 LiveBrowseComp를 직접 만들었습니다. 핵심 설계 원칙은 단순합니다. 벤치마크 제작 시점 이전 90일 이내의 사실에만 의존하는 질문을 수록하는 것입니다.

질문 소재는 영화 데이터베이스, 게임 디렉터리, 보안 취약점 등록부, 지진 기록 같은 지속 갱신 소스에서 뽑았습니다. 세계적으로 주목받은 사건은 의도적으로 걸러냈습니다. 대형 이슈는 학습 데이터에 스며들 가능성이 있기 때문입니다. 335개 질문은 전문가 검토를 거쳐 시의성, 난이도, 명확성을 확인했고, 사람이 푸는 데 걸리는 시간은 BrowseComp와 비슷했습니다.

LiveBrowseComp에서는 모든 모델의 도구 없는 정답률이 2% 아래로 떨어졌습니다. 기억에 기댈 수 없게 되자 도구를 사용했을 때의 점수도 BrowseComp 대비 25~40점포인트 낮아졌습니다.

순위도 뒤집혔습니다. BrowseComp에서 오픈소스 모델 중 1위였던 GLM 5.1은 LiveBrowseComp에서 중위권으로 내려앉았습니다. 반대로 BrowseComp 최하위였던 DeepSeek v3.2가 LiveBrowseComp 상위권으로 치고 올라왔습니다. 정적 벤치마크에서의 순위는 실제 검색 능력보다 학습 데이터의 양을 더 많이 반영했던 것입니다.

벤치마크가 측정해야 할 것

BrowseComp에서 에이전트들이 문제를 푸는 데 필요한 검색 횟수도 LiveBrowseComp에서는 달라집니다. BrowseComp에서는 단 몇 번의 검색으로 끝내는 경우가 많았는데, 기억 확인에 최적화된 패턴이었습니다. LiveBrowseComp에서는 같은 모델들이 훨씬 더 많은 검색 라운드를 거쳤습니다. 기억 지름길이 막히자 실제로 뒤져야 했던 셈입니다.

연구팀은 시간에 묶인 동적 벤치마크가 AI 에이전트 평가의 새로운 기준이 되어야 한다고 주장합니다. 추측 후 확인하는 방식 대신, 증거 기반 탐색에 보상을 주는 훈련 신호도 필요하다고 덧붙입니다.

지금 많은 모델이 BrowseComp에서 높은 점수를 받으며 검색 능력을 입증하고 있습니다. 그런데 그 점수의 상당 부분은 검색 전에 이미 벌어졌을 수 있습니다.

참고자료: AI search agents often confirm what they already know instead of actually researching the web – The Decoder

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

BrowseComp 1위 모델이 진짜 검색엔 꼴찌, AI 벤치마크의 치명적 맹점

검색 없이도 절반 가까이 맞힌다

검색하면 오히려 틀린다

‘기억 우회로’를 막자 순위가 뒤집혔다

벤치마크가 측정해야 할 것

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

에이전트에게 준 스펙도 유효기간이 있다, 오래 쌓아두면 오히려 헷갈린다

MS 해커톤에서 검증된 AI 에이전트 병렬 작업법, 핵심은 Git 워크트리

AI 탐지기, 문체를 흉내 내자 글 5개 중 1개를 놓쳤다

생산성은 오르고 만족감은 사라지는 이유, 개발자의 보상 회로가 문제였다