구글 AI Overviews 정확도 논란, 91%와 10% 사이에서 무엇을 봐야 하나

2026-04-14

﹒

AI 인사이트

﹒

2 minutes

“10번 중 1번은 틀린다”는 헤드라인과 “10번 중 9번은 맞는다”는 헤드라인이 같은 날 동시에 등장했습니다. 같은 연구를 보도한 기사들입니다. 어떻게 이런 일이 가능할까요?

사진 출처: The Decoder

뉴욕타임스의 의뢰로 AI 스타트업 Oumi가 구글 AI Overviews의 정확도를 체계적으로 측정한 결과를 발표했습니다. 4,326건의 검색을 SimpleQA 벤치마크로 분석한 이번 연구는 Gemini 2 기준 85%, Gemini 3 기준 91%의 정확도를 확인했습니다. 문제는 이 숫자를 어떻게 읽느냐입니다.

출처: How Accurate Are Google’s A.I. Overviews? – The New York Times

91%는 높은가, 낮은가

구글은 연간 약 5조 건의 검색을 처리합니다. 오답률 9%를 그 규모에 대입하면 매시간 5,700만 건 이상, 분당 약 100만 건의 잘못된 답변이 나가는 셈입니다. “대부분 맞는다”는 말과 “하루에 수천만 건을 틀린다”는 말이 동시에 사실인 이유입니다.

오답이 어떻게 만들어지는지는 구체적 사례를 보면 더 선명합니다. 밥 말리의 자택이 박물관으로 전환된 시기를 묻자 AI Overviews는 1987년이라고 답했지만, 실제 개관일은 1986년 5월 11일(밥 말리 사망 5주기)입니다. 출처로 제시된 세 링크 중 하나인 위키피디아는 1986년과 1987년을 동시에 표기하고 있었고, AI는 잘못된 연도를 골랐습니다. 요요마가 클래식 음악 명예의 전당에 헌액된 날짜를 묻는 질문에서는 해당 기관의 공식 웹사이트를 출처로 제시하고도 “그런 명예의 전당은 존재하지 않는다”고 답했습니다. 출처를 찾는 것과 출처를 제대로 읽는 것은 별개의 문제입니다.

정확도는 올랐지만, 근거는 오히려 나빠졌다

이번 연구에서 더 주목할 만한 발견은 정확도 수치 뒤에 있습니다. Gemini 3로 업그레이드된 뒤 정답률은 높아졌지만, 제시된 출처가 실제로 그 답변을 뒷받침하는 비율은 오히려 떨어졌습니다. Gemini 2 시절에는 정답의 37%가 출처와 연결되지 않았는데, Gemini 3에서는 그 비율이 56%로 늘었습니다.

다시 말해, 구글이 옳은 답을 내놓더라도 절반 이상의 경우 독자가 그 답이 맞는지 직접 확인할 방법이 없습니다. 출처로 제시된 링크 중 가장 많이 등장한 도메인 2위와 4위는 각각 Facebook과 Reddit이었고, Facebook은 오답 케이스의 7%에서도 출처로 나타났습니다.

연구 자체도 논쟁 중

구글은 이 연구에 정면으로 반박했습니다. SimpleQA 벤치마크 자체가 틀린 정보를 포함하고 있으며, 일반 사용자의 실제 검색과는 동떨어진 질문들로 구성되어 있다는 것이 구글의 주장입니다. SimpleQA는 OpenAI가 개발한 테스트로, 사전 검증 과정에서 AI 모델이 최소 한 번이라도 틀린 적 있는 질문들만 모아 만든 벤치마크입니다. 즉, 구조적으로 어려운 문제만 골라낸 셈이어서 실패율이 과장될 수 있습니다.

검증 방식에도 한계가 있습니다. 4,000건 이상을 수동으로 검토하는 것은 현실적으로 불가능하기 때문에 Oumi는 자체 AI 모델 HallOumi를 활용해 검증했습니다. AI가 AI를 채점하는 구조입니다. 또한 AI Overviews는 동일한 검색어를 수 초 간격으로 반복해도 다른 답을 내놓기도 해서, 단일 시점의 측정이 전체를 대표하기 어렵습니다.

숫자 논쟁 너머의 질문

정확도 논쟁과 별개로, 이 연구는 더 큰 구조적 문제를 건드립니다. AI Overviews가 직접 답변을 제공하면서 사용자가 원본 웹사이트를 방문할 이유가 줄어드는 것입니다. 정확도가 90%라면 대부분의 사용자는 링크를 클릭하지 않아도 충분히 만족할 수 있습니다. 이는 콘텐츠를 만드는 퍼블리셔에게 트래픽 손실로 이어지고, 구글이 정보를 집중화하는 방향으로 작동합니다.

조작에도 취약합니다. BBC 팟캐스트 진행자 Thomas Germain은 이 취약점을 직접 실험했습니다. 가상의 ‘사우스다코타 국제 핫도그 먹기 대회’에서 자신이 1위를 차지했다는 블로그 포스트를 올린 다음 날, 구글은 그를 “경쟁 먹기 이벤트에서 두각을 나타낸” 기술 저널리스트 명단 1위로 소개했습니다. 출처는 그가 직접 쓴 그 블로그 포스트였습니다.

연구 방법론의 타당성, 구글의 반박, 그리고 출처 검증 가능성 하락에 대한 상세 분석은 원문에서 확인할 수 있습니다.

참고자료:

Testing suggests Google’s AI Overviews tell millions of lies per hour – Ars Technica
Google’s AI Overviews are correct nine out of ten times, study finds – The Decoder
Google’s AI search is producing millions of wrong answers every day – TechSpot

Like?

AI Overviews AI검색 AI정확도 Gemini Oumi SimpleQA 구글 할루시네이션

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

구글 AI Overviews 정확도 논란, 91%와 10% 사이에서 무엇을 봐야 하나

91%는 높은가, 낮은가

정확도는 올랐지만, 근거는 오히려 나빠졌다

연구 자체도 논쟁 중

숫자 논쟁 너머의 질문

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

RAG가 그럴듯한 답을 내놓고도 틀리는 이유, 세 도구가 보는 방식

AI 에이전트가 매번 처음부터 시작하는 이유, 정보가 아니라 재사용의 문제였다

Claude Code 리드가 “이제 프롬프트 안 짠다, 루프를 짠다”고 말한 이유

Muse Spark 1.1, 메타가 내놓은 “개인 에이전트”의 실체