AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 모델이 자신 있을수록 더 위험하다, MIT가 찾아낸 과잉 확신의 구조적 원인

AI가 틀린 답을 내놓는 건 감수할 수 있습니다. 하지만 틀린 답을 95% 확신한다고 말한다면 이야기가 달라집니다. 사용자는 틀린 정보를 의심할 이유조차 갖지 못하게 됩니다.

사진 출처: MIT News / MIT CSAIL

MIT CSAIL(컴퓨터과학 및 인공지능 연구소) 연구팀이 최신 AI 추론 모델들이 왜 구조적으로 과잉 확신을 갖게 되는지 원인을 밝히고, 정확도 손실 없이 이를 교정하는 훈련 방법을 개발했습니다. 연구는 이달 말 머신러닝 학회 ICLR에서 발표될 예정입니다.

출처: Teaching AI models to say “I’m not sure” – MIT News

문제의 뿌리: 보상 함수에 “모르겠다”는 없다

오늘날 고성능 추론 모델들은 OpenAI의 o1처럼 강화학습(RL)으로 훈련됩니다. 이 방식의 핵심은 단순합니다. 맞으면 보상, 틀리면 패널티. 그런데 여기서 결정적인 공백이 생깁니다.

신중하게 추론해서 맞춘 답과 찍어서 운 좋게 맞춘 답이 똑같은 보상을 받습니다. 반대로 불확실성을 표현하거나 “모르겠다”고 말하는 것은 어떤 보상도 없습니다. 이 구조에서 훈련받은 모델은 자연스럽게 한 가지를 배웁니다. 뭘 물어봐도 자신 있게 답하는 것이 최선이라는 것을.

연구팀이 더 주목하게 된 건 이 부분입니다. 일반 RL 훈련은 단순히 교정 능력을 개선하지 못하는 게 아니라, 기본 모델보다 교정 능력을 적극적으로 악화시킵니다. 모델이 더 유능해질수록 동시에 더 과잉 확신하게 되는 것이죠.

RLCR: 보상 함수에 “얼마나 확신하는가”를 더하다

연구팀의 해법은 보상 구조 자체를 바꾸는 것이었습니다. RLCR(Reinforcement Learning with Calibration Rewards)은 기존 RL 보상 함수에 Brier score라는 항목을 하나 추가합니다. Brier score는 모델이 표현한 확신 정도와 실제 정확도 사이의 차이를 수치화하는 방식입니다.

이 구조에서 훈련받은 모델은 답을 내놓는 동시에 자신의 불확실성도 함께 추론합니다. 자신 있게 틀리면 패널티를 받습니다. 반대로 맞는 답에 불필요하게 낮은 확신을 표현해도 패널티를 받습니다. 단순히 “모른다고 말하도록” 훈련하는 게 아니라, 실제 정확도에 맞게 확신을 조정하도록 유도하는 것입니다.

연구팀은 70억 파라미터 모델을 6개의 처음 보는 데이터셋을 포함한 다양한 벤치마크에서 테스트했고, 교정 오류를 최대 90%까지 줄이면서 정확도는 유지하거나 개선했습니다. 사후에 별도 분류기를 덧붙이는 기존 방식보다도 성능이 높았습니다.

불확실성을 추론하는 것 자체가 정보다

추가 발견도 흥미롭습니다. 연구팀이 모델 출력으로 분류기를 훈련해 보니, 모델이 자신의 불확실성에 대해 명시적으로 추론한 내용을 입력에 포함했을 때 분류기 성능이 올라갔습니다. 특히 소형 모델에서 이 효과가 뚜렷했습니다.

즉, 모델이 “나는 이 부분이 확실하지 않다”고 추론하는 과정 자체에 실질적인 정보 가치가 있다는 뜻입니다. 장식이 아니라, 그 추론 흔적이 실제로 유용한 신호를 담고 있다는 것입니다.

이 연구는 AI 추론 모델의 할루시네이션 문제를 다른 각도에서 조명합니다. 지금까지 할루시네이션 대응은 주로 사실 검증이나 사후 필터링에 초점을 맞췄지만, RLCR은 훈련 과정 자체에서 과잉 확신을 구조적으로 제거하려 합니다. 의료·법률·금융처럼 AI 출력을 기반으로 실제 결정이 이뤄지는 분야에서 특히 의미 있는 접근입니다.

참고자료: RLCR 논문 (arXiv)


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다