AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Google AI 검색이 콘텐츠를 읽는 방식, 첫 번째 실증 분석

Google AI Mode나 Gemini Chat에 질문을 입력했을 때, 내 글의 어떤 문장이 AI 답변에 쓰이고 어떤 문장은 무시될까요? SEO 전문가 Dan Petrovic이 API 응답 데이터를 직접 분석해 처음으로 그 답을 내놓았습니다.

사진 출처: dejan.ai

SEO 에이전시 DEJAN의 Dan Petrovic이 Google Gemini의 grounding 파이프라인 — AI가 웹 페이지의 어떤 문장을 뽑아 답변 근거로 쓰는지를 결정하는 시스템 — 을 역분석한 결과를 공개했습니다. Google API가 반환하는 원시 데이터를 직접 들여다보며 문장 선택 메커니즘을 처음으로 실증적으로 밝혔다는 점에서 주목할 만합니다.

출처: What extraction method is Google using to build grounding snippets? – DEJAN

Gemini가 웹 페이지를 읽는 방식

사용자가 질문을 입력하면 Google은 이를 곧바로 처리하지 않습니다. 먼저 query fanout 모델이 복합적인 질문을 단일 의도의 하위 쿼리들로 분해합니다. 예를 들어 “extractive summarization 예시와 도구를 알려줘”라는 질문은 “extractive summarization 예시”, “extractive summarization 파이썬 도구” 같은 개별 쿼리로 나뉘어 각각 처리됩니다.

각 하위 쿼리별로 검색 결과 중 보통 5~20개의 웹 페이지가 선택되고, 시스템은 각 페이지에서 grounding snippet을 만들어냅니다. 페이지 내용을 문장 단위로 잘라 각 문장에 해당 쿼리와의 관련도 점수를 매긴 뒤, 고득점 문장만 모아 최종 snippet을 구성하는 방식입니다. 비연속적인 문장들은 ...으로 연결되어 하나의 덩어리처럼 보이게 됩니다.

이렇게 수집된 모든 출처의 grounding snippet이 사용자 질문, 위치 정보, 사용 이력 같은 신호들과 함께 Gemini에 전달되고, 모델은 이를 바탕으로 최종 답변을 생성합니다. 답변의 각 주장은 특정 출처 문장에 자동으로 매핑되어 인용 링크로 표시됩니다.

어떤 문장이 선택되는가

Petrovic이 실제 API 데이터를 분석해 확인한 선택 패턴은 다음과 같습니다.

쿼리와의 의미적 유사도가 가장 중요합니다. 같은 페이지 안에 있어도 쿼리와 무관한 내용(예: 쿼리가 “extractive summarization 예시”인데 “abstractive summarization” 섹션)은 통째로 건너뛰었습니다. 문장 수준의 정밀한 선별이 이루어지고 있다는 뜻입니다.

도입부는 내용과 무관하게 거의 전부 추출됩니다. 글의 첫 문단 문장들은 쿼리 관련성이 낮아도 높은 점수를 받아 대부분 포함되는 경향이 있었습니다. 원문에서는 이를 “heavy positional/lead bias”라고 표현했는데, 첫 문단에 핵심 메시지를 집약해야 하는 이유가 여기에 있습니다.

목차 항목, 섹션 헤더, 코드 아티팩트 같은 구조적 노이즈도 문장으로 처리됩니다. 시스템이 이런 요소들을 일반 문장과 동일하게 점수를 매기고 선택 대상에 포함한다는 점은 콘텐츠 제작자 입장에서 고려할 만한 발견입니다.

각 문장에는 0.1~1.0 범위의 신뢰도 점수가 부여되며, 이 점수는 grounding 출처와 생성된 답변 덩어리 간의 관련도를 나타냅니다.

콘텐츠와 AI 검색 사이의 새로운 층위

지금까지 콘텐츠가 AI 검색 답변에 인용되는 원리는 불투명했습니다. 이 분석은 그 과정이 AI의 자유로운 해석이 아니라 체계적인 문장 추출 → 점수화 → 선별 과정임을 실증 데이터로 처음 보여준다는 점에서 의미가 있습니다.

Petrovic은 분석 결과를 바탕으로 Microsoft의 DeBERTa-v3-large 모델을 파인튜닝했고, Google의 방식과 유사한 결과를 재현하는 데 성공해 데모 툴도 공개했습니다. 원문에는 실제 API 응답 데이터와 어떤 문장이 추출되고 건너뛰었는지를 색으로 표시한 주석 예시도 수록되어 있습니다.


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다