방사선 전문의 한 명이 일 년에 검토해야 하는 유방촬영 사진은 약 5,000장. 그 중 놓친 암이 나중에 증상으로 발견되면, 이미 치료가 훨씬 어려워진 상태입니다. Google의 AI는 그 놓친 암의 25%를 잡아냈습니다. 그런데 정작 전문가 패널이 그 판정을 뒤집었습니다.

Google, 임페리얼 칼리지 런던, 영국 NHS가 공동으로 AI 기반 유방암 스크리닝 시스템을 대규모 임상 환경에서 검증한 연구 결과를 Nature Cancer에 발표했습니다. 12만 5천 명의 유방촬영 데이터를 분석한 이번 연구는 AI의 정확도를 넘어, 실제 의료 현장에서 인간과 AI가 어떻게 충돌하고 협력하는지를 처음으로 체계적으로 들여다봤습니다.
출처: How Google AI improved breast cancer detection in the UK – Google Blog
AI가 잡아낸 것들
이번 연구는 두 편의 논문으로 구성됩니다. 첫 번째는 AI의 단독 정확도를 검증했고, 두 번째는 AI를 실제 진단 워크플로에 통합했을 때의 효과를 살펴봤습니다.
첫 번째 연구에서 AI는 ‘간격암(interval cancer)’의 25%를 추가로 발견했습니다. 간격암이란 정기 검진에서 이상 없음 판정을 받았다가, 다음 검진 전에 증상이 나타나 뒤늦게 발견되는 암입니다. 발견이 늦을수록 치료 난이도가 높아지는 유형이라 임상적으로 중요합니다. AI는 또한 전문 방사선의보다 침습성 암을 더 많이 발견했고, 첫 검진 수검자에서는 위양성(false positive)도 더 적었습니다.
두 번째 연구(5만 명 이상 대상)에서는 AI를 ‘두 번째 독자(second reader)’로 활용할 경우 방사선 전문의의 검토 업무량을 약 40% 줄일 수 있다는 결과가 나왔습니다. 영국 NHS의 현행 표준은 모든 유방촬영을 두 명의 전문의가 독립적으로 판독하는 ‘이중 판독’ 방식인데, 전 세계적인 방사선 전문의 부족 속에서 AI가 이 역할을 일부 대신할 수 있음을 보여준 겁니다.
전문의가 AI 판정을 번복했다
연구의 가장 주목할 만한 발견은 정확도 수치가 아닙니다. AI가 발견한 암을 전문가 중재 패널(arbitration panel)이 최종 단계에서 뒤집은 사례가 있었다는 점입니다.
NHS의 이중 판독 체계에서는 두 전문의 의견이 엇갈릴 때 중재 패널이 최종 결정을 내립니다. 연구팀이 시뮬레이션으로 이 과정을 재현했을 때, 패널이 AI가 정확하게 잡아낸 암을 ‘이상 없음’으로 번복하는 경우가 발생했습니다. 연구팀은 이를 “AI가 잡아낸 미세한 초기 암에 대한 전문의의 신뢰 부족”에서 비롯된 긴장으로 해석했습니다.
런던 12개 NHS 스크리닝 센터에서 진행된 관찰 가능성 연구(9,000건 이상 실시간 처리)에서도 비슷한 교훈이 나왔습니다. AI는 ‘플러그앤플레이’ 솔루션이 아니었습니다. 병원마다 다른 장비, 환자 구성, 워크플로에 맞춰 지속적인 보정과 조율이 필요했습니다.
AI의 정확도보다 더 어려운 문제
이번 연구가 의미 있는 이유는 AI 성능 자체를 넘어서는 질문을 제기하기 때문입니다. AI가 전문의보다 특정 유형의 암을 더 잘 발견한다 해도, 그 결과를 임상 현장이 얼마나 신뢰하고 수용할 것인가는 별개의 문제입니다.
연구팀은 인간-AI 상호작용에 대한 추가 연구가 필요하다고 명시했습니다. 정확도 개선에서 실제 도입으로 이어지는 길목에는, 기술보다 신뢰라는 더 복잡한 변수가 있습니다. 7가지 벤치마크 결과와 세부 ablation study는 원문 논문에서 확인할 수 있습니다.
참고자료:

답글 남기기