AI에게 어려운 질문을 던졌을 때 “확실히 말씀드리자면…”이라고 시작하는 답변을 받아본 적 있나요? Apple 연구진이 흥미로운 사실을 발견했습니다. LLM(대규모 언어 모델)은 답을 틀릴 가능성이 높을수록 오히려 더 자신감 있게 답한다는 겁니다.

Apple 기계학습 연구팀이 발표한 논문 “Dunning-Kruger Effect in Large Language Models”는 LLM이 가진 구조적 한계를 “Dunning-Kruger 효과”에 빗대어 설명합니다. Dunning-Kruger 효과란 무능한 사람일수록 자신의 능력을 과대평가하는 심리학 현상인데, AI도 비슷한 패턴을 보인다는 거죠.
출처: Dunning-Kruger Effect in Large Language Models – Apple Machine Learning Research
틀릴수록 더 확신하는 AI
연구팀은 GPT-4o, Claude 3.5 Sonnet, Llama 3.1 등 주요 LLM들을 대상으로 실험했습니다. 결과는 놀라웠어요. 모델이 정답을 맞힐 확률이 낮은 질문일수록 답변의 확신도는 오히려 높아졌습니다.
예를 들어 GPT-4o에게 어려운 질문(정답률 20%)을 던지면 86%의 확신도로 답했지만, 쉬운 질문(정답률 80%)에는 72%의 확신도로 답했죠. 틀린 답일수록 더 당당하게 말하는 겁니다.
더 심각한 건 “모른다”고 말하는 능력의 부재입니다. 연구팀이 측정한 결과, LLM들의 “abstention rate”(답변 거부율)은 거의 0%에 가까웠어요. 모를 때 솔직히 “모르겠다”고 말하는 대신, 그럴듯한 답을 지어내는 거죠.
왜 이런 일이 생기는가
이건 LLM의 작동 방식에서 비롯된 구조적 문제입니다. LLM은 본질적으로 확률 기반 예측 시스템이에요. 다음에 올 단어를 확률적으로 추측하는 거죠. 하지만 학습 과정에서 “확실한 톤”으로 답하도록 훈련받았기 때문에, 내부적으로 불확실하더라도 외부적으로는 자신감 있게 표현하게 됩니다.
연구진은 이를 “miscalibration”(잘못된 보정)이라고 표현합니다. 모델의 내부 확신도와 실제 정확도 사이에 괴리가 있다는 뜻이죠. 마치 시험 문제를 찍으면서도 “이거 맞을 거야!”라고 확신하는 것과 비슷합니다.
실무에서의 의미
이 연구가 우리에게 주는 교훈은 명확합니다. AI의 답변 톤에 속지 말라는 거예요. “확실히”, “명백히”, “분명히”같은 표현은 실제 정확도와 아무 상관이 없습니다.
연구진은 해결책으로 “보정된 확신도 표시”를 제안합니다. AI가 답변과 함께 “이 답변의 실제 정확도는 약 30%입니다”같은 정보를 제공하는 거죠. 하지만 이는 기술적으로 복잡한 과제입니다.
당장 우리가 할 수 있는 건 회의적 태도를 유지하는 겁니다. 특히 중요한 결정이나 전문적 판단이 필요한 상황에서는 AI 답변을 반드시 검증해야 합니다. AI가 자신만만할수록 더 의심해야 할 이유가 생긴 셈이죠.
참고자료:

답글 남기기