AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

딸기도 모르던 GPT, 블루베리도 헷갈리네: GPT-5의 ‘블루베리 테스트’ 실패가 보여주는 AI 과대광고의 민낯

OpenAI가 “PhD 수준의 전문성”을 자랑하며 출시한 GPT-5가 ‘blueberry’라는 단어의 ‘b’ 개수를 세는 간단한 문제에서 실패하며, AI 기업들의 과대광고와 실제 성능 사이의 심각한 괴리를 드러냈습니다.

GPT-5 출시와 화려한 약속들

2025년 8월 7일, OpenAI는 GPT-5를 공식 출시했습니다. Sam Altman CEO는 “인류 역사상 어느 때보다 상상할 수 없었던 수준”이라며 이 모델을 극찬했습니다. 특히 “PhD 수준의 전문성”을 제공할 수 있다고 주장했죠.

하지만 사회학자 Kieran Healy가 진행한 간단한 테스트는 이런 화려한 마케팅 문구들이 얼마나 허상인지 보여줬습니다.

GPT-5 블루베리 테스트 1단계
GPT-5에게 ‘blueberry’에서 ‘b’의 개수를 묻는 첫 번째 질문 (출처: kieranhealy.org)

간단한 문제, 놀라운 실패

Healy는 GPT-5에게 매우 간단한 질문을 던졌습니다: “blueberry라는 단어에 ‘b’가 몇 개 있는가?”

정답은 3개입니다. 하지만 GPT-5는 틀린 답을 제시했을 뿐만 아니라, 자신감 넘치는 태도로 틀린 답변을 고수했습니다. 더 문제가 된 것은 GPT-5가 보인 반응이었습니다.

GPT-5 블루베리 테스트 2단계
GPT-5가 자신의 틀린 답변을 자신감 있게 방어하는 모습 (출처: kieranhealy.org)

GPT-5는 “아, 천천히 해보죠”, “정확히 맞습니다”, “네”, “아니요” 같은 표현을 사용하며 마치 상대방이 이해하지 못하는 것처럼 행동했습니다. 이는 실제 PhD들이 자신의 전문 분야에서 보이는 확신에 찬 태도를 흉내 낸 것으로 보입니다.

AI의 고질적인 문제: 토큰화의 한계

이런 실패는 GPT-5만의 문제가 아닙니다. 지난해부터 AI 커뮤니티에서는 “딸기 문제(strawberry problem)”로 알려진 비슷한 이슈가 화제가 됐습니다. ChatGPT가 ‘strawberry’에서 ‘r’의 개수를 제대로 세지 못하는 문제였죠.

ChatGPT가 ‘strawberry’의 ‘r’ 개수를 세지 못하는 모습 (출처: Reddit)

왜 이런 일이 벌어질까요? 2024년 12월 발표된 연구논문에 따르면, 이 문제의 핵심은 AI 모델이 사용하는 ‘토큰화(tokenization)’ 방식에 있습니다.

AI 모델은 단어를 글자 단위가 아닌 ‘토큰’이라는 단위로 처리합니다. 예를 들어 ‘blueberry’는 ‘blue’와 ‘berry’ 두 개의 토큰으로 나뉩니다. 모델은 각 토큰 안에서 글자를 인식하고 세어야 하는데, 이 과정에서 오류가 발생하는 것입니다.

특히 같은 글자가 여러 번 나타나는 경우 문제가 심각해집니다. 연구에 따르면 AI 모델들은 한 번만 나타나는 글자는 비교적 잘 세지만, 두 번 이상 나타나는 글자에서는 실패율이 급격히 증가합니다.

마케팅과 현실의 괴리

이 사건이 시사하는 바는 단순한 기술적 한계를 넘어섭니다. OpenAI를 비롯한 AI 기업들이 자신들의 제품을 과대포장하는 것과 실제 성능 사이의 심각한 괴리를 보여주기 때문입니다.

Healy는 이를 다음과 같이 비판했습니다: “당신은 양쪽 다 가질 수는 없습니다. 과대광고에서 카리스마를 빌려오면서 동시에 그 과대광고를 믿은 것이 다른 사람의 순진한 실수라고 부인할 수는 없습니다.”

실제로 Reddit과 다른 AI 커뮤니티에서는 “프롬프트 엔지니어링을 해보라”는 조언들이 쏟아졌습니다. 하지만 이는 문제의 본질을 회피하는 것입니다. “PhD 수준의 전문가”라고 광고한 도구가 간단한 문자 세기도 못 한다면, 사용자들이 당연히 실망할 수밖에 없습니다.

실무진의 현실적 조언

AI 개발자들과 연구자들은 이런 한계를 잘 알고 있습니다. Reddit의 한 개발자는 “ChatGPT가 이런 문제를 해결하려면 Python 코드를 사용하라”고 조언했습니다. 실제로 코드 인터프리터를 사용하면 정확한 답을 얻을 수 있습니다.

하지만 이것이 일반 사용자들에게는 현실적인 해결책이 될 수 없습니다. 간단한 문자 세기를 위해 프로그래밍을 해야 한다면, “자연어로 소통할 수 있는 PhD 수준 전문가”라는 마케팅 문구는 무의미해집니다.

기업 의사결정에 미치는 영향

이런 과대광고는 실제 비즈니스에서 심각한 문제를 일으킬 수 있습니다. Reddit의 한 사용자는 핀테크 기업 Klarna의 사례를 언급했습니다. 이 회사는 AI의 능력을 과신해 직원들을 대거 해고했다가, 나중에 AI가 기대만큼 작동하지 않는다는 것을 깨닫고 다시 채용을 시작했습니다.

이는 AI 기업들의 과대광고가 실제 기업 운영에 얼마나 위험한 영향을 미칠 수 있는지 보여주는 사례입니다.

현실적인 AI 활용법

그렇다면 우리는 AI를 어떻게 활용해야 할까요?

첫째, AI의 한계를 인정하고 현실적인 기대치를 설정해야 합니다. AI는 창의적 작업, 텍스트 요약, 아이디어 생성 등에서는 뛰어난 성능을 보이지만, 정확한 계산이나 세부적인 분석에서는 여전히 한계가 있습니다.

둘째, 중요한 작업에서는 AI 결과를 반드시 검증해야 합니다. 특히 수치나 사실 확인이 필요한 업무에서는 더욱 신중해야 합니다.

셋째, AI를 보조 도구로 활용하되, 최종 판단은 인간이 내려야 합니다. AI가 제공하는 정보를 참고하되, 비판적 사고를 통해 검토하는 습관이 필요해 보입니다.


참고자료:


AI Sparkup 구독하기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments