RAG 시스템을 만들 때 벡터 검색은 거의 기본값처럼 여겨집니다. 임베딩 모델을 붙이고, 유사도를 계산하고, 의미적으로 가까운 문서를 찾아오는 방식이 더 정교하고 강력하다는 전제가 있기 때문입니다. 그런데 PwC 연구팀이 내놓은 실험 결과는 이 전제에 물음표를 던집니다.

PricewaterhouseCoopers 연구팀이 2026년 5월 arxiv에 발표한 논문 “Is Grep All You Need?”는 AI 에이전트 환경에서 grep(키워드 기반 검색)과 벡터 검색(의미 기반 검색)을 체계적으로 비교한 연구입니다. 116개의 질문 데이터셋을 기반으로 Claude Code, Codex, Gemini CLI 등 실제 에이전트 환경에서 실험한 결과, grep이 여러 조건에서 더 높은 정확도를 기록했습니다.
출처: Is Grep All You Need? How Agent Harnesses Reshape Agentic Search – arXiv (PricewaterhouseCoopers)
에이전트 검색은 일반 RAG와 다릅니다
일반적인 RAG 파이프라인에서 검색은 단순합니다. 질문이 들어오면 벡터 인덱스에서 유사한 문서를 찾아 컨텍스트에 붙여주는 게 전부입니다.
에이전트 환경은 다릅니다. 에이전트는 스스로 검색어를 정하고, 몇 번 검색할지 결정하고, 결과가 충분한지 판단해 추가 검색을 할지 결정합니다. 검색이 단발성 작업이 아니라 반복적인 루프 안에 놓이는 것입니다. 이 차이가 어떤 검색 방식이 유리한지를 바꿔놓습니다.
왜 grep이 벡터보다 정확했는가
연구에서 grep은 텍스트 내 키워드나 패턴을 정확하게 찾아내는 방식입니다. 임베딩 모델도, 벡터 인덱스도 필요 없이 텍스트를 직접 스캔합니다. 반면 벡터 검색은 질문과 문서를 각각 수치 벡터로 변환해 의미적 거리가 가까운 것을 찾습니다.
에이전트 환경에서 grep이 유리했던 이유는 에이전트가 검색어를 스스로 구성한다는 데 있습니다. 에이전트가 “2023년 4월 서울 미팅”을 찾고 싶다면, 그 키워드 자체를 grep에 넘기면 됩니다. 벡터 검색은 이 키워드를 임베딩으로 변환해 유사한 표현을 찾으려 하는데, 정확히 일치하는 텍스트가 있을 때는 오히려 노이즈가 생길 수 있습니다.
게다가 관련 없는 대화 기록이 섞일수록 두 방식의 격차가 더 벌어졌습니다. 벡터 검색은 노이즈가 많아질수록 유사도 점수가 흔들리는 반면, grep은 키워드가 있으면 찾고 없으면 찾지 않는 방식이라 상대적으로 안정적이었습니다.
검색 전략보다 하네스가 더 중요할 수 있다
이 연구에서 더 흥미로운 발견은 검색 방식보다 에이전트 하네스(harness)가 결과에 더 큰 영향을 미쳤다는 점입니다. 하네스는 에이전트가 동작하는 환경, 즉 어떻게 툴을 호출하고 결과를 처리하고 다음 행동을 결정하는지를 관리하는 레이어입니다.
연구팀은 자체 제작한 하네스(Chronos)와 Claude Code, Codex, Gemini CLI 세 가지 제공자 기본 CLI를 비교했습니다. 같은 데이터, 같은 검색 방식을 써도 어떤 하네스를 사용하느냐에 따라 점수가 크게 달라졌습니다. 다시 말해, 검색 알고리즘을 바꾸는 것보다 에이전트 환경 자체를 어떻게 구성하느냐가 최종 성능에 더 결정적일 수 있다는 것입니다.
툴 결과를 어떻게 전달하느냐도 성능에 영향을 줍니다
연구는 툴 결과 전달 방식도 변수로 다뤘습니다. 검색 결과를 컨텍스트 창에 바로 주입하는 방식(inline)과 파일로 저장해 에이전트가 필요할 때 읽는 방식(file-based)을 비교했습니다.
inline 방식은 결과가 컨텍스트에 직접 쌓이기 때문에, 검색을 반복할수록 컨텍스트가 빠르게 채워집니다. 이를 논문은 “context rot”라고 부릅니다. 앞서 들어온 툴 결과들이 쌓이면서 모델이 정말 중요한 정보에 집중하기 어려워지는 현상입니다. 파일 기반 방식은 이 압박을 줄이는 대신, 에이전트가 직접 파일을 열어 읽는 단계가 추가됩니다.
어느 방식이 일방적으로 낫다고 보기는 어렵고, 이 또한 하네스 구성에 따라 다르게 나타났습니다.
복잡한 방식이 항상 나은 건 아닙니다
이 연구가 던지는 핵심 메시지는 “더 정교한 검색 방식이 더 나은 에이전트를 만든다”는 통념에 대한 반문입니다. 에이전트 루프 안에서 검색 전략의 효과는 독립적으로 평가될 수 없고, 하네스 구조와 결과 전달 방식과 얽혀 있습니다.
벡터 검색을 도입한다고 에이전트 성능이 자동으로 올라가지는 않습니다. 어떤 환경에서 어떻게 동작하는지가 함께 고려되어야 합니다. 논문은 여기에 더해 6가지 정보 검색 카테고리별 세부 결과와, 노이즈 증가에 따른 성능 변화 곡선도 함께 분석하고 있습니다.
참고자료: LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory – arXiv

답글 남기기