GPT-5도 여전히 환각을 일으키는 이유는 성능 부족이 아니라 AI가 ‘모른다’고 말하면 점수를 깎는 현재 평가 방식 때문입니다. OpenAI 최신 연구가 밝힌 환각의 구조적 원인과 해결책을 살펴보겠습니다.

환각이 뭔지부터 알아보자
AI 환각이란 그럴듯하지만 틀린 답변을 확신에 차서 내놓는 현상입니다.
OpenAI 연구팀이 직접 실험해봤습니다. 논문 저자인 Adam Kalai의 박사논문 제목을 물어봤더니 ChatGPT가 세 번 다른 답을 줬습니다.
“2002년 CMU에서 완성한 ‘Boosting, Online Algorithms, and Other Topics in Machine Learning’”라고 답하거나, “2005년 하버드에서 완성한 ‘Algebraic Methods in Interactive Machine Learning’”라고 답했습니다. 모두 틀렸죠.
왜 계속 환각을 일으킬까?
1. 시험에만 맞춰 공부하는 AI
현재 AI 평가 방식을 생각해보세요. 객관식 시험에서 모르는 문제가 나왔다면? 찍는 게 낫죠. 빈칸으로 내면 0점이지만 찍으면 25% 확률로 맞출 수 있으니까요.
AI도 마찬가지입니다. 누군가 생일을 물어봤는데 모른다면? “9월 10일”이라고 찍으면 365분의 1 확률로 맞습니다. “모르겠습니다”라고 하면 무조건 0점이죠.
수천 개 문제를 풀다 보면 찍는 AI가 정직한 AI보다 점수가 높아집니다. 순위표에서도 위에 올라가고요.
2. 정확도만 따지는 평가의 함정
대부분의 AI 벤치마크는 정확도만 측정합니다. 맞았냐 틀렸냐만 보는 거죠. 하지만 세상에는 세 종류의 답이 있습니다:
- 정확한 답: 맞는 정보
- 틀린 답: 환각이나 오류
- 보류: “모르겠습니다”
문제는 현재 평가에서 틀린 답과 보류를 똑같이 취급한다는 점입니다. 하지만 사용자 입장에서는 확실히 다르죠. 틀린 정보를 확신에 차서 들으면 속습니다. “모르겠다”고 솔직히 말하면 다른 방법을 찾아볼 수 있고요.

환각은 어디서 시작될까?
사전훈련 단계의 딜레마
AI는 처음에 엄청난 양의 텍스트로 학습합니다. “다음 단어 맞히기” 게임을 수십억 번 하는 거죠. 문제는 여기서 시작됩니다.
맞춤법이나 문법은 일정한 패턴이 있어서 학습하기 쉽습니다. 하지만 생일 같은 임의의 사실들은 어떨까요? 패턴이 없으니 추측할 수밖에 없습니다.
연구팀은 이를 수학적으로 증명했습니다. 훈련 데이터에 한 번만 나오는 사실들은 환각률이 20% 이상 될 수밖에 없다고요. 아인슈타인 생일처럼 자주 언급되는 건 정확하지만, 잘 알려지지 않은 사람의 정보는 틀릴 확률이 높습니다.
후훈련에서도 못 고치는 이유
사전훈련 후에 인간 피드백으로 추가 학습을 시킵니다. 이때 환각을 줄여야 하는데 잘 안 됩니다. 왜일까요?
평가 방식이 여전히 “정확도 위주”이기 때문입니다. 수백 개 벤치마크에서 정확도만 측정하면서 “찍어서라도 맞혀”라는 신호를 보내는 거죠.
해결책은 의외로 간단하다
평가 방식을 바꾸자
OpenAI 연구팀이 제시한 해결책은 명확합니다:
- 틀린 답에는 더 큰 감점을
- “모르겠다”는 답에는 부분 점수를
이미 일부 시험에서 쓰는 방식입니다. 인도의 JEE, NEET 시험이나 미국의 SAT 시험도 틀리면 감점하는 방식을 썼었죠.
신뢰 임계값 명시하기
각 질문에 이런 안내를 추가하는 겁니다:
“75% 이상 확신할 때만 답하세요. 틀리면 2점 감점, 맞으면 1점, ‘모르겠다’면 0점입니다.”
이렇게 하면 AI가 자신의 한계를 인정하게 됩니다.

환각의 수학적 원리: 왜 필연적일까?
“D가 몇 개?” 같은 간단한 질문도 틀리는 이유
OpenAI 연구팀이 “DEEPSEEK에 D가 몇 개 있나요?”라고 물어봤습니다. 답은 1개인데 AI는 “2개”, “3개”, 심지어 “6개”, “7개”라고 답했습니다.
이게 왜 일어날까요? AI는 단어를 글자 단위가 아닌 “토큰” 단위로 봅니다. DEEPSEEK을 D/EEP/SEE/K로 잘라서 보는 거죠. 첫 번째 토큰에만 D가 있는데 전체 글자 수를 세는 건 다른 문제입니다.
하지만 추론 모델인 DeepSeek-R1은 이렇게 풀었습니다:
“D-E-E-P-S-E-E-K로 철자를 써보자. 첫 번째 글자: D – D가 하나. 두 번째 글자: E – D가 아니다…”
단계별로 생각하니까 맞췄습니다. 환각은 모델이 “생각하는 방법”과도 관련이 있다는 뜻이죠.
생일 같은 임의 사실의 운명
연구팀은 “임의 사실(Arbitrary Facts)”에 대한 수학적 분석을 했습니다. 생일처럼 패턴 없는 정보 말이죠.
카페에서 새로운 손님 100명이 와서 생일을 물어본다고 생각해보세요. 그 중 20명의 생일을 한 번씩만 들었다면? 나중에 그 20명이 다시 와서 생일을 물어봐도 정확히 기억할 확률은 80% 이하입니다.
AI도 마찬가지입니다. 훈련 데이터에서 한 번만 본 정보는 기억하기 어려워요. 연구팀이 증명한 “싱글톤 정리”에 따르면, 한 번만 나온 사실들의 비율만큼 환각률이 생깁니다.
훈련 데이터에서 20%의 생일 정보가 한 번씩만 나왔다면, 그런 생일 질문에서 최소 20%는 틀릴 수밖에 없다는 거예요.
환각률 공식: err ≥ 2 × 분류오류율
논문에서 가장 중요한 발견 중 하나입니다. 환각 문제를 “이게 올바른 답인가?”라는 분류 문제로 바꿔서 분석했어요.
마치 시험 문제를 채점하는 것과 같습니다. “이 답이 맞나 틀리나?”를 판단하는 거죠. 만약 이 판단이 50% 정확도라면, 실제 답 생성에서는 최소 그 두 배인 100%가 틀릴 수 있다는 겁니다.
왜 두 배일까요? 답을 생성하는 건 판단보다 더 어려운 일이거든요. 여러 후보 중에서 골라야 하니까요.
캘리브레이션의 역설: 훈련할수록 나빠진다
사전훈련 모델은 정직했다
흥미로운 발견이 있습니다. 처음 텍스트로만 훈련한 “베이스 모델”은 사실 꽤 정직했어요. 자신이 얼마나 확신하는지 정확하게 표현했습니다.
OpenAI 연구 결과를 보면, GPT-4의 사전훈련 모델은 “캘리브레이션”이 잘 되어 있었습니다. 70% 확신한다고 하면 실제로도 70% 정도 맞았다는 뜻이죠.
인간 피드백 훈련 후 망가진다
그런데 인간 피드백으로 추가 훈련을 하고 나니 이 캘리브레이션이 망가졌습니다. 확신은 높아졌는데 실제 정확도는 그만큼 높아지지 않은 거예요.
이는 마치 자신감 훈련을 너무 많이 받은 사람 같습니다. 실력은 그대로인데 자신감만 늘어난 거죠. 인간 평가자들이 “확신 있는 답변”을 선호하다 보니 이런 일이 생겼습니다.
작은 모델이 더 솔직할 수 있다
논문에서 반직관적인 결과를 보여줍니다. 작은 모델이 큰 모델보다 더 솔직할 수 있다는 거예요.
예를 들어, 마오리어 질문을 받았을 때:
- 마오리어를 전혀 모르는 작은 모델: “죄송합니다. 마오리어를 모릅니다.”
- 마오리어를 조금 아는 큰 모델: 추측해서 틀린 번역을 제시
큰 모델이 더 많이 알지만, 그만큼 자신의 한계를 인정하기 어려워진다는 거죠. 반쯤 아는 게 더 위험할 수 있습니다.
이진 분류의 함정
맞다/틀리다만 있는 세상
현재 AI 평가의 근본 문제는 “이진 분류”에 있습니다. 세상에는 세 종류의 답이 있는데 두 종류로만 나누려고 하는 거예요:
- 정답: 확실히 맞는 것
- 오답: 확실히 틀린 것
- 모름: 판단할 수 없는 것
하지만 대부분의 벤치마크는 “정답 아니면 오답”으로만 봅니다. “모름”은 “오답”과 같은 취급을 받죠.
삼진법으로 바꿔야 하는 이유
연구팀은 이를 “가짜 이분법(false dichotomy)”이라고 비판합니다. 실제 상황에서는 세 가지가 모두 다른 가치를 가지거든요:
- 의사가 “확실히 감기입니다”라고 하는 것
- 의사가 “확실히 감기가 아닙니다”라고 하는 것
- 의사가 “더 검사해봐야 알겠습니다”라고 하는 것
셋 다 완전히 다른 정보입니다. AI 평가도 마찬가지여야 해요.
AI 환각 문제, 이제 해답이 보입니다. 더 똑똑한 AI가 아니라 더 정직한 AI를 만드는 것. 그리고 그런 정직함을 제대로 평가하는 시스템을 구축하는 것. 변화는 이미 시작되었습니다.
참고자료:
Comments