AI 에이전트로 검색 품질 6-10% 올린 실험, ML 팀 없이도 가능하다

2026-03-18

﹒

2 minutes

“검색 품질을 올리려면 ML 팀을 고용해야 한다”는 말은 오랫동안 상식처럼 통했습니다. 시맨틱 서치, 하이브리드 랭킹, 클릭스트림 분석 — 이 모든 것이 전문 인력과 큰 예산을 전제로 했죠. 그런데 Arcturus Labs가 다른 가능성을 실험으로 보여줬습니다.

사진 출처: Arcturus Labs

AI 검색 전문 컨설팅사 Arcturus Labs의 John Berryman이 기존 키워드 검색 API를 AI 에이전트로 감싸는 “에이전틱 검색” 실험 결과를 발표했습니다. Wayfair 가구 데이터셋(약 43,000개 제품)을 대상으로 한 실험에서, ML 팀 없이 에이전트만으로 검색 품질 지표(NDCG)를 6~10% 개선하는 데 성공했습니다.

출처: Make AI Your Search Team – Arcturus Labs

에이전틱 검색이란

기존 검색은 사용자가 입력한 단어를 그대로 인덱스에 던지는 방식입니다. “modern leather couch under $1000″이라고 검색하면, 키워드 매칭 엔진은 “leather”라는 단어가 들어간 항목을 무차별적으로 끌어올립니다. 가격이 $2,000인 가죽 소파도, 가죽 손잡이가 달린 의자도 함께 나오는 이유입니다.

에이전틱 검색은 AI 에이전트를 검색 API 앞에 배치합니다. 에이전트는 다음 흐름으로 작동합니다: ① 사용자 의도 파악 → ② 넓은 쿼리로 탐색 → ③ 결과를 보며 쿼리 정제 → ④ 조건(가격, 카테고리 등)을 좁혀 재검색 → ⑤ 최종 결과 반환. 사용자 인터페이스는 그대로 두고, API와 검색 엔진 사이에 에이전트를 끼워 넣기만 하면 됩니다.

AI 모델이 이미 “sheet pan”과 “baking tray”가 같은 물건임을 알고, “dress shoes”는 따옴표로 묶어야 “dress”나 “tennis shoe”와 구분된다는 것도 이해합니다. 별도 학습 없이 도메인 상식을 갖고 있는 셈입니다.

실험: 잘된 것과 실패한 것

연구팀은 GPT-5-mini 에이전트와 자체 구현한 단순 키워드 검색을 100개 쿼리로 비교했습니다. 평가 지표로는 검색 순위 품질을 측정하는 NDCG@10을 사용했고, 각 제품은 Exact(정확 일치), Partial(부분 일치), Irrelevant(무관) 세 등급으로 레이블링했습니다.

에이전트는 복합 조건 쿼리에서 두드러진 성과를 냈습니다. “modern leather couch under $1000” 검색에서 기존 엔진이 가죽 관련 항목을 마구잡이로 반환하는 동안, 에이전트는 먼저 넓게 검색한 뒤 가격 범위와 카테고리 필터를 적용한 후속 쿼리로 실제 조건에 맞는 항목을 골라냈습니다.

반면 초기 버전의 에이전트는 뚜렷한 실수도 저질렀습니다. 인덱스 구조를 파악하기도 전에 강제 매칭 연산자와 따옴표로 쿼리를 지나치게 제약하거나, 존재하지 않는 필터 값을 만들어내 결과가 0건이 나오는 경우가 있었습니다. 연구팀은 이를 “환각된 필터 값” 문제로 짚었습니다.

이 문제들은 대부분 시스템 프롬프트 개선으로 해결됐습니다. 먼저 탐색적 쿼리부터 시작하도록 명시하고, 유효한 필터 값 목록을 프롬프트에 직접 제공하는 방식이었습니다.

현실적인 트레이드오프: 응답 속도

가장 큰 현실적 한계는 지연 시간입니다. 키워드 검색이 수십 밀리초 안에 결과를 반환하는 반면, 에이전트는 탐색 쿼리와 후속 쿼리를 합쳐 평균 3~8초가 걸렸습니다. 검색창의 즉각 반응을 기대하는 사용자에게는 받아들이기 어려운 수준입니다.

연구팀이 제시한 대안은 결과를 직접 대체하는 대신, 에이전트가 “더 나은 검색어”를 제안하는 방식으로 시작하는 것입니다. 이렇게 하면 에이전트를 응답의 핵심 경로에서 분리할 수 있어 지연 문제를 우회할 수 있습니다.

더 나아가기: 검색 메모리

연구팀은 한 발 더 나아가 세션을 넘나드는 “검색 메모리”도 실험했습니다. 과거 쿼리에서 효과적이었던 키워드 전략과 실패한 전략을 임베딩 기반으로 저장해두고, 새로운 쿼리가 들어올 때 유사한 과거 검색을 불러와 참고하는 방식입니다. “standing desk” 관련 이전 검색에서 +adjustable 키워드가 정밀도를 높였다는 기록이 있으면, 다음 유사 쿼리에서 탐색 단계를 건너뛸 수 있습니다.

논문은 이외에도 few-shot 예시 설계 전략, 파인튜닝 가능성 등을 다룹니다.

에이전틱 검색은 ML 팀 없이도 검색 품질의 윗 단계로 올라갈 수 있다는 실증을 보여줬습니다. 지연 시간 문제, 프롬프트 설계 공수 등 현실적 과제도 함께 짚어주고 있어 도입을 고민한다면 원문을 직접 읽어볼 만합니다.

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI 에이전트로 검색 품질 6-10% 올린 실험, ML 팀 없이도 가능하다

에이전틱 검색이란

실험: 잘된 것과 실패한 것

현실적인 트레이드오프: 응답 속도

더 나아가기: 검색 메모리

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Fable 5 탈옥 의심, 정체는 세 단어짜리 요청이었다

링크드인 채용 제안에 숨은 백도어, AI 에이전트가 찾아낸 npm 공급망 공격

AI 에이전트가 도구를 직접 찾는다, ARD 명세가 바꾸는 것

AI 지능지수에 비용 지표 추가, 모델별 격차 최대 45배