---
title: "멀티모달 AI의 신기루 현상, 이미지 없이 방사선 전문의를 이긴 모델"
date: 2026-04-05
author: "Spark"
featured_image: "https://aisparkup.com/wp-content/uploads/2026/03/QmX8QW1H466Z67T3miZcfs8kLDydT4MvFGMDBSC4ZSn8pm.avif"
categories:
  - name: "AI 인사이트"
    url: "/posts/category/ai-insights.md"
tags:
  - name: "AI평가"
    url: "/posts/tag/ai%ed%8f%89%ea%b0%80.md"
  - name: "Claude"
    url: "/posts/tag/claude.md"
  - name: "Gemini"
    url: "/posts/tag/gemini.md"
  - name: "GPT-5"
    url: "/posts/tag/gpt-5.md"
  - name: "멀티모달AI"
    url: "/posts/tag/%eb%a9%80%ed%8b%b0%eb%aa%a8%eb%8b%acai.md"
  - name: "미라지효과"
    url: "/posts/tag/%eb%af%b8%eb%9d%bc%ec%a7%80%ed%9a%a8%ea%b3%bc.md"
  - name: "의료AI"
    url: "/posts/tag/%ec%9d%98%eb%a3%8cai.md"
---

# 멀티모달 AI의 신기루 현상, 이미지 없이 방사선 전문의를 이긴 모델

![](https://aisparkup.com/wp-content/uploads/2026/03/QmX8QW1H466Z67T3miZcfs8kLDydT4MvFGMDBSC4ZSn8pm-1024x717.avif)사진 출처: Lummi.ai흉부 X선 이미지가 없는데도 방사선 전문의보다 높은 점수를 받은 AI 모델이 있습니다. 보지 않은 것을 본 것처럼 설명하며, 그 설명이 실제 이미지를 본 것과 구별이 안 됩니다. 스탠퍼드 대학 연구팀이 이 현상에 이름을 붙였습니다. “미라지(신기루) 효과”입니다.

**출처:** [MIRAGE: The Illusion of Visual Understanding](https://arxiv.org/abs/2603.21687) — arXiv (Stanford University, 2026.03)

## 이미지가 없는데 이미지를 “본다”

연구팀은 GPT-5, Gemini 3 Pro, Claude Sonnet/Opus 4.5 등 주요 프론티어 모델에 이미지 없이 시각 관련 질문만 던졌습니다. **모든 모델이 평균 60% 이상의 비율**로 이미지를 실제로 받은 것처럼 구체적인 묘사를 생성했습니다. 추가 프롬프트 지시를 넣었더니 이 비율은 90~100%까지 올라갔습니다.

  

이걸 단순한 환각(hallucination)과 혼동하기 쉬운데, 연구팀은 차이를 이렇게 구분합니다. 환각이 실제 있는 이미지에서 없는 세부사항을 채워 넣는 것이라면, 미라지 효과는 아예 이미지가 없는데도 존재한다는 전제 자체를 만들어내는 것입니다. 모델은 “이미지가 없는 것 같다”는 불확실성을 전혀 표현하지 않고, 보지 않은 것을 자신 있게 묘사합니다.

![](https://i0.wp.com/aisparkup.com/wp-content/uploads/2026/03/x1_2026-03-31.png?resize=793%2C552&ssl=1)사진 출처: MIRAGE 논문 (arXiv, 2026)## 의료 현장에서의 편향된 진단

특히 위험한 건 의료 영역에서의 미라지 패턴입니다. 연구팀이 Gemini 3 Pro에 흉부 X선, 뇌 MRI, 심전도, 병리 슬라이드, 피부 사진 등 5개 의료 분야 이미지를 제공하지 않고 진단을 요청하자, 생성된 진단은 정상 소견보다 **병리 소견 쪽으로 강하게 편향**됐습니다. 가장 자주 등장한 진단 중에는 즉각적인 수술 협진이 필요한 STEMI(심근경색), 흑색종, 암종 등이 포함됐습니다.

업로드 오류로 이미지가 전송되지 않은 상황을 상상해 보세요. 모델은 이미지가 없다는 사실을 알아채지 못하고 중증 진단을 내놓을 수 있습니다. 사용자 입장에서는 그게 실제 이미지를 분석한 결과인지, 없는 이미지를 상상한 결과인지 전혀 알 수 없습니다.

## 벤치마크 1위를 차지한 텍스트 전용 모델

미라지 효과의 파장은 AI 평가 방식 전반으로 번집니다. 연구팀은 흉부 방사선 영상 QA 벤치마크인 ReXVQA의 공개 학습 데이터로 텍스트 전용 “슈퍼 게서(Super-Guesser)” 모델을 훈련했습니다. 이미지를 단 한 장도 보지 않은 이 모델이, 이미지를 처리하는 모든 프론티어 AI 모델을 제치고 리더보드 1위에 올랐습니다. 방사선 전문의보다도 높은 점수였습니다.

이는 현재 많은 멀티모달 벤치마크가 시각 능력이 아닌 텍스트 추론 능력을 측정하고 있음을 의미합니다. “이미지를 이해한다”는 점수가 실제로는 텍스트 패턴에서 답을 유추하는 능력일 수 있다는 것입니다.

## 평가 방식의 구조적 허점

연구팀은 이 문제의 해결책으로 **B-Clean** 방법론을 제안합니다. 텍스트만으로 정답을 추론할 수 있는 문항을 걸러내, 실제 시각 능력을 측정하는 데이터셋을 구성하는 방식입니다.

미라지 효과는 AI 모델 자체의 결함이기도 하지만, 동시에 평가 방식의 설계 문제이기도 합니다. 이미지 유무에 따라 모델의 응답이 의미 있게 달라지지 않는다면, 그 모델은 시각 입력에 근거해 추론하고 있지 않다는 신호입니다. 논문은 특히 의료 AI에서 이런 오보정된 신뢰가 가장 큰 위험을 초래한다고 강조합니다.

  

벤치마크 점수, 특히 의료 영상 AI의 성능 지표를 읽을 때 이 논문이 제기하는 질문을 함께 생각해볼 필요가 있습니다. 모델이 실제로 이미지를 보고 있는 건지, 아니면 신기루를 보고 있는 건지.

**참고자료:** [ReXVQA: A Large-scale Visual Question Answering Benchmark for Generalist Chest X-ray Understanding](https://arxiv.org/abs/2506.04353)



[ Like?](https://aisparkup.com/wp-admin/admin-ajax.php?action=oacs_spl_process_like&post_id=10675&nonce=ba6ab61939&is_comment=0&disabled=true "Like")