구글의 의료 AI 모델 Med-Gemini가 존재하지 않는 뇌 부위인 ‘basilar ganglia’를 진단 결과로 제시한 사건이 발생하며, 의료 현장에서 AI 도입 시 신중한 검증과 안전장치가 얼마나 중요한지 다시 한번 부각되고 있습니다.
존재하지 않는 뇌 부위를 진단한 AI
2024년 5월, 구글은 Med-Gemini라는 의료 AI 모델 제품군을 화려한 수식어와 함께 공개했습니다. 이 AI는 방사선 영상을 분석하고, 의료 기록을 검토하며, 심지어 유전자 정보를 통해 질병 위험도를 예측할 수 있다고 소개되었습니다.
하지만 Med-Gemini를 소개하는 연구논문에서 심각한 오류가 발견되었습니다. AI가 뇌 CT 스캔을 분석하며 “old left basilar ganglia infarct(좌측 기저강 구경색)”라고 진단한 것입니다. 문제는 ‘basilar ganglia’라는 뇌 부위는 실제로 존재하지 않는다는 점입니다.

실제로는 운동 조절과 학습, 감정 처리를 담당하는 ‘기저핵(basal ganglia)’과 뇌간에 혈액을 공급하는 ‘기저동맥(basilar artery)’이 각각 존재합니다. AI는 이 두 용어를 잘못 조합해 존재하지 않는 해부학적 구조를 만들어낸 것입니다.
은밀한 수정과 뒤늦은 인정
신경과 전문의이자 AI 연구자인 브라이언 무어(Bryan Moore) 박사가 이 오류를 발견하고 구글에 알렸을 때, 구글의 대응은 문제적이었습니다. 회사는 아무런 공지 없이 블로그 포스트의 내용을 조용히 수정했고, 연구논문은 그대로 방치했습니다.
무어 박사가 이런 은밀한 수정을 공개적으로 지적하자, 구글은 마지못해 원래 결과를 다시 게시하며 “‘basilar’는 훈련 데이터에서 학습된 ‘basal’의 흔한 오기”라고 해명했습니다. 하지만 이 설명조차 AI 할루시네이션의 위험성을 제대로 인식하지 못한 것으로 보입니다.
더욱 우려스러운 점은 이 연구논문에 50명 이상의 저자가 참여했고 의료 전문가들의 검토를 거쳤음에도 아무도 이 오류를 발견하지 못했다는 사실입니다.
의료 AI 할루시네이션의 위험성
의료 AI에서 발생하는 할루시네이션은 다른 분야보다 훨씬 위험합니다. 생명과 직결되는 의료 현장에서 AI가 그럴듯하게 들리는 거짓 정보를 제공할 때, 의료진이 이를 놓칠 가능성이 있기 때문입니다.

프로비던스 헬스케어 시스템의 최고의료정보책임자 마울린 샤(Maulin Shah) 박사는 “두 글자 차이지만 매우 심각한 문제”라며 우려를 표했습니다. 그는 자동화 편향(automation bias)의 위험성을 지적했습니다. AI가 대부분 정확한 결과를 제공하다 보니, 의료진이 AI의 판단을 맹신하고 오류를 놓칠 수 있다는 것입니다.
실제로 최근 공개된 구글의 또 다른 의료 AI 모델인 MedGemma에서도 유사한 문제들이 발견되었습니다. 에모리 대학교의 주디 지초야(Judy Gichoya) 박사가 같은 X선 이미지에 대해 질문 방식을 조금만 바꿔도 AI의 답변이 완전히 달라지는 것을 확인했습니다. 구체적인 정보를 포함한 질문에는 정확히 진단했지만, 단순한 질문에는 “정상”이라고 잘못 판단했습니다.
의료진들의 경고: 너무 빠른 도입
스탠포드 의과대학의 조나단 첸(Jonathan Chen) 박사는 현재 상황을 “매우 이상한 임계점”이라고 표현했습니다. 많은 의료 AI 도구들이 충분히 성숙하지 않은 상태에서 임상 현장에 너무 빨리 도입되고 있다는 것입니다.
첸 박사는 “운전자가 자율주행차를 믿고 잠들어버리는 것과 같다”며 “생명이 걸린 상황에서는 그런 방식으로 접근해서는 안 된다”고 강조했습니다.
듀크 헬스의 최고데이터과학자 마이클 펜시나(Michael Pencina) 박사는 Med-Gemini의 오류가 단순한 오타보다는 할루시네이션일 가능성이 높다고 보며, “AI 개발 단계가 여전히 서부 개척시대와 같은 상황”이라고 평가했습니다.
안전한 의료 AI를 위한 방향
의료 전문가들은 AI가 인간 수준의 정확도에 도달하는 것만으로는 충분하지 않다고 입을 모았습니다. 샤 박사는 “AI는 인간보다 훨씬 높은 기준의 오류율을 가져야 한다”며 “그렇지 않다면 차라리 인간이 계속 그 일을 하는 게 낫다”고 말했습니다.

의료진들이 제시하는 해결책은 다음과 같습니다:
실시간 할루시네이션 탐지 시스템 구축: 하나의 AI 모델이 다른 AI 모델의 결과를 검증하고, 위험한 부분은 경고 표시를 하거나 아예 보여주지 않는 시스템을 개발해야 합니다.
보조 역할에 집중: AI는 의료진을 대체하는 것이 아니라 보조하는 역할에 머물러야 합니다. 복잡한 진단이나 치료 결정은 여전히 인간 의료진의 영역으로 남겨두되, AI는 데이터 분석이나 단순 업무를 지원하는 역할을 해야 합니다.
엄격한 검증 과정: 의료 AI 시스템은 출시 전에 더욱 엄격한 검증 과정을 거쳐야 하며, 의료진은 AI 결과를 항상 비판적으로 검토하는 습관을 유지해야 합니다.
마무리
구글의 Med-Gemini 사건은 의료 AI가 아무리 발전했다 하더라도 여전히 심각한 오류를 범할 수 있음을 보여주는 대표적인 사례입니다. 특히 이러한 오류가 매우 그럴듯하게 포장되어 전문가조차 속일 수 있다는 점에서 더욱 위험합니다.
의료 AI의 발전은 분명 환영할 일이지만, 성급한 도입보다는 안전성을 우선시하는 신중한 접근이 필요합니다. AI는 의료진의 능력을 확장시키는 도구로 활용되어야 하며, 최종적인 의료 판단은 여전히 인간의 몫으로 남겨두어야 할 것입니다.
참고자료:
Comments