AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 검색, 이제 콘텐츠는 5단계 심사를 통과해야 인용된다

구글 AI Mode나 ChatGPT Deep Research에서 경쟁사 글은 자주 인용되는데 내 글은 보이지 않는다면, 순위 문제가 아닐 수 있습니다. 당신의 콘텐츠는 이미 검색되고 있을 수도 있지만, 그 이후 단계에서 탈락하고 있을 가능성이 높습니다.

사진 출처: iPullRank

SEO 에이전시 iPullRank의 CEO Mike King이 AI 검색 플랫폼의 내부 구조를 분석한 글을 발표했습니다. 핵심 주장은 하나입니다. 구글 AI Mode, ChatGPT Deep Research, Perplexity를 포함한 모든 주요 AI 검색이 이제 ‘단순 RAG’를 버리고 Agentic RAG 구조로 전환했으며, 콘텐츠가 최종 답변에 인용되려면 다섯 단계의 AI 판단 관문을 모두 통과해야 한다는 것입니다.

출처: Beyond RAG: Why Every AI Search Platform Is Now Agentic and What That Means for Your Content – iPullRank

단순 RAG가 왜 한계에 부딪혔는가

2023년까지만 해도 AI 검색의 구조는 단순했습니다. 사용자 질문이 들어오면 → 관련 문서를 벡터 검색으로 찾고 → 상위 k개 문단을 LLM에 넣어 → 답변을 생성하는 일직선 파이프라인이었죠. 이 구조에서는 내 콘텐츠가 상위 검색 결과에 들어가면 인용될 가능성이 생겼습니다.

그런데 이 방식은 구조적인 한계가 있었습니다. ① 여러 개념이 얽힌 복합 질문에는 한 번의 검색으로 충분한 근거를 모을 수 없었습니다. “퇴직 후 국내 법인을 통해 해외 ETF에 투자할 때 건강보험료 산정에 어떤 영향을 주는가” 같은 질문이 그 예입니다. ② 첫 검색이 엉뚱한 문서를 가져오면 그 위에 환각이 그대로 쌓였고 복구할 방법이 없었습니다. ③ 실시간 금리 조회나 수치 계산처럼 질문 유형마다 필요한 도구가 달랐지만 단일 검색기는 그 선택을 할 수 없었습니다. ④ 생성된 답변이 잘못되어도 스스로 검토하는 과정이 없었습니다.

이 네 가지 실패 유형이 Agentic RAG로의 전환을 이끌었습니다.

Agentic RAG가 작동하는 방식

Agentic RAG는 기존 RAG에 네 가지 속성을 추가합니다.

  1. 계획(Planning): 사용자 질문 하나를 5~20개의 하위 질문으로 분해하고 각각에 맞는 검색 도구를 미리 배정합니다.
  2. 도구 사용(Tool Use): 벡터 검색, 구조화 데이터 API, 코드 실행기, 실시간 웹 페이지 접근 등 질문 유형에 따라 다른 도구를 선택합니다.
  3. 반복 검색(Iteration): 첫 검색 결과를 읽고, 거기서 나온 개념을 바탕으로 다시 검색합니다. 한 번이 아니라 충분한 근거가 확보될 때까지 루프를 돕니다.
  4. 자기 비평(Reflection): 초안을 작성한 뒤 스스로 충분성, 모순, 최신성, 출처 다양성을 평가합니다. 기준을 통과하지 못하면 다시 검색으로 돌아갑니다.

이 네 가지가 합쳐지면 사용자 질문 하나에 수십 번의 내부 검색이 발생하는 루프가 됩니다.

King은 이 구조를 구글의 특허 5건으로 뒷받침합니다. 2018년에 출원된 쿼리 분해 특허부터 2024년의 쌍비교 랭킹 특허까지, 구글이 이 아키텍처의 각 구성 요소를 IP로 등록해왔다는 것입니다.

콘텐츠가 통과해야 하는 다섯 단계

루프의 구조를 알면 콘텐츠가 왜 탈락하는지가 보입니다. 최종 인용까지 도달하려면 다섯 단계를 순서대로 통과해야 합니다.

  1. 플래너(Planner): 원래 질문이 하위 질문들로 분해될 때 내 콘텐츠 주제가 포함되어야 합니다. 주변 소주제 없이 단독 페이지만 있으면 이 단계에서 고려 대상에서 빠집니다.
  2. 라우터(Router): 각 하위 질문에 어떤 도구를 쓸지 결정하는 단계입니다. 모기지 금리나 약물 상호작용처럼 도구 호출이 더 적합한 도메인에서는 아무리 좋은 글을 써도 라우터가 API를 먼저 호출합니다.
  3. 검색(Retrieval): 실제로 문서가 검색되는 단계입니다. 여기서는 페이지 전체가 아니라 문단 단위 청크가 검색됩니다.
  4. 쌍비교(Pairwise): 검색된 청크들이 서로 1:1로 비교됩니다. LLM이 두 문단을 읽고 “어느 쪽이 이 질문에 더 적합한가”를 판정합니다. 맥락 없이 앞 단락을 봐야 이해되는 문장은 자급자족되는 문단에 집니다.
  5. 비평(Critic): 합성된 초안을 평가합니다. 반론이나 적용 예외를 다루지 않는 일방적 내용, 날짜 표시 없는 오래된 정보는 이 단계에서 탈락합니다.

King의 표현을 빌리면, 기존 SEO는 SERP라는 한 순간의 판단을 최적화했습니다. Agentic RAG는 매 하위 질문마다 이 다섯 단계가 반복됩니다. 최적화해야 할 판단 지점이 수십 배로 늘어난 셈입니다.

측정 도구가 마지막 결과만 보는 이유

King이 이 글에서 가장 불편한 사실로 꼽는 것은 측정의 한계입니다.

단순 RAG 시대에는 내 콘텐츠가 검색 결과에 포함됐는지 역추적이 가능했습니다. 지금의 아키텍처에서는 플래너가 어떤 하위 질문을 만들었는지, 라우터가 어떤 도구를 선택했는지, 쌍비교에서 어떤 경쟁 문단에 졌는지 전부 불투명합니다. 현재 대부분의 GEO(Generative Engine Optimization) 측정 도구들은 최종 답변에 인용됐는지만 확인합니다. 5단계 필터를 거친 생존자만 보고, 필터 자체는 관찰하지 못하는 구조입니다.

King의 주장은 이 블랙박스를 역추적하는 대신, 동일한 구조의 로컬 에이전트를 구축해 내 콘텐츠가 어느 단계에서 탈락하는지를 관찰 가능한 형태로 파악하는 것이 현실적이라는 것입니다. ChatGPT Deep Research나 Gemini Deep Research처럼 계획과 하위 질문을 노출하는 플랫폼은 이 과정을 직접 관찰할 수 있는 유용한 출발점이 됩니다.

Agentic RAG가 기본값이 된 지금, 인용 수 감소의 원인이 5단계 필터 어디에 있는지를 모른다면 무엇을 고쳐야 하는지도 알 수 없습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다