사람은 가려진 물체를 보려고 할 때 “저것 좀 치워줄 수 있어요?”라고 묻습니다. 22개 멀티모달 AI 모델은 어땠을까요. 물체가 블록으로 막혀 있는 상황에서 정답률이 98.3%에서 8.2%로 떨어졌습니다. 모두 묻지 않고 그냥 틀렸습니다.

3월 말, 이탈리아 트렌토대학교의 Thomas De Min 연구팀이 arXiv에 ProactiveBench 논문을 공개했습니다. 멀티모달 AI 모델이 정보가 부족한 상황에서 스스로 도움을 요청할 수 있는지를 체계적으로 테스트한 벤치마크로, 22개 모델을 대상으로 한 결과는 한결같이 실망스러웠습니다.
출처: ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models – arXiv
시각 정보가 막히면 AI는 그냥 틀린다
ProactiveBench는 7개의 기존 데이터셋을 재활용해 인간의 개입 없이는 풀 수 없는 18,000개 시나리오를 구성했습니다. 모델에게 주어진 과제는 가려진 물체 식별, 노이즈 낀 이미지 정리, 거친 스케치 해석, 다른 카도 각도 요청 등이었습니다. 중요한 것은 애초에 모델 혼자서 정답을 낼 수 없도록 설계된 상황이라는 점입니다.
정상적인 환경(물체가 선명하게 보이는 경우)에서 모델들의 평균 정답률은 79.8%였습니다. ProactiveBench에서는 17.5%로 떨어졌습니다. 도움이 필요한 상황임을 인식하고 요청하는 능력이 사실상 없다는 뜻입니다.
흥미로운 건 모델 크기와 성능 사이에 아무런 상관관계가 없었다는 점입니다. InternVL3-1B는 더 큰 InternVL3-8B를 앞섰고, 구형 LLaVA-1.5-7B가 최신 LLaVA-OV-72B보다 나은 결과를 냈습니다. 크고 최신이라고 해서 “내가 지금 뭔가를 모른다”는 인식이 더 잘 되는 건 아니었습니다.
‘도움 요청처럼 보이는 것’과 ‘진짜 도움 요청’은 다르다
연구팀은 한 걸음 더 나아갔습니다. 일부 모델은 도움을 요청하는 것처럼 행동했는데, 진짜인지 확인하기 위해 합리적인 요청 선택지를 의미없는 것으로 바꿔봤습니다. 예를 들어 스케치 해석 과제에서 “영상을 되감기”처럼 맥락과 전혀 맞지 않는 선택지를 제시한 것입니다.
기존에 도움을 잘 요청하는 것처럼 보였던 모델들이 이 엉터리 선택지를 똑같은 비율로 골랐습니다. LLaVA-NeXT Vicuna의 경우 오히려 선택률이 37%에서 49%로 올랐습니다. 겉으로 보이는 ‘능동적 요청’이 실제로는 낮은 기준으로 아무거나 고르는 행동에 가깝다는 의미입니다.
프롬프트에 힌트를 추가하거나 대화 기록을 넣는 방식도 별 효과가 없었습니다. 힌트는 정답률을 25.8%까지 밀어올리긴 했지만 평균 우연 수준을 넘지 못했고, 대화 기록은 오히려 성능을 떨어뜨렸습니다. 과거 대화에서 도움 요청 행동이 있었으면, 모델은 그걸 학습하는 대신 그냥 따라하는 방식으로 반응했습니다.
강화학습으로 ‘언제 물어야 하는지’를 가르칠 수 있다
밝은 면도 있었습니다. 연구팀은 LLaVA-NeXT-Mistral-7B와 Qwen2.5-VL-3B를 약 2만 7천 개 예제로 강화학습(GRPO)을 통해 파인튜닝했는데, 핵심은 보상 설계였습니다. 정답을 맞히는 행동에 더 높은 보상을 주고, 도움 요청은 진짜 막혔을 때만 하도록 유도했습니다.
이 방식으로 훈련된 두 모델은 기존 22개 모델 전부를 앞질렀고, o4-mini(34.0%)도 넘어섰습니다(각각 37.4%, 38.6%). 훈련 데이터에 없던 시나리오에도 이 행동이 일반화됐습니다. ChangeIt 데이터셋에서 Qwen2.5-VL-3B의 정답률은 12.4%에서 55.6%로 올랐습니다.
반면 도움 요청에 정답과 동일한 보상을 주었더니 모델은 도움 요청을 남발했고 정답률이 5.4%까지 추락했습니다. 강화학습으로 ‘도움 요청 능력’ 자체를 심는 게 아니라, ‘언제 요청해야 하는지’의 판단력을 훈련하는 것이 핵심이라는 걸 잘 보여주는 결과입니다.
AI의 불확실성 인식 문제는 반복되는 패턴이다
ProactiveBench가 드러낸 문제는 이번이 처음이 아닙니다. 스탠퍼드 연구팀의 ‘Mirage effect’ 연구에서는 GPT-5, Gemini 3 Pro 등 최신 모델들이 이미지가 아예 없는 상황에서도 시각적 세부사항을 자신있게 설명하거나 의학적 진단을 내린다는 게 확인됐습니다. 입력이 빠진 줄도 모르고 텍스트 패턴만으로 정상 성능의 70~80%를 낸 것입니다.
AI 모델이 무언가를 모른다는 사실을 모른다는 이 구조적 한계가 ProactiveBench를 통해 다시 한번 정밀하게 측정됐습니다. 연구팀은 ProactiveBench를 오픈소스로 공개했으며, 이를 능동적 멀티모달 모델 개발의 첫 발판으로 자리매김했습니다.
논문에는 7가지 데이터셋에 걸친 22개 모델의 세부 결과와 보상 설계 변수별 ablation study가 포함되어 있습니다. 수치와 실험 설계에 관심이 있다면 원문을 직접 읽어볼 만합니다.

답글 남기기