프랑스 병원에서 의료진이 AI가 골절 가능성을 표시한 X-ray를 분석하고 있다. Credit: Damien Meyer/AFP/Getty
의료 AI 시장이 폭발적으로 성장하고 있습니다. 글로벌 의료 AI 시장 규모는 2024년 265억 달러에서 2030년까지 1,877억 달러로 성장할 것으로 예측됩니다. 2024년 한 해에만 PubMed 데이터베이스에 인공지능, 머신러닝, 딥러닝을 언급한 의료 연구가 26,000건 이상 등록되었습니다.
하지만 의료 AI의 눈부신 성장 뒤에는 예상치 못한 문제가 숨어 있습니다. 바로 AI 모델이 성공적으로 작동할 때 오히려 발생하는 ‘데이터 오염’ 현상입니다. 이는 의료 AI의 장기적 신뢰성을 위협하는 새로운 도전과제로 떠오르고 있습니다.
의료 AI가 직면한 역설적 딜레마
현대 의학은 패턴 인식에 기반합니다. 환자의 병력, 신체 검사, 검사 결과, 치료 반응에서 나타나는 패턴을 통해 질병을 진단하고 치료 방향을 결정합니다. 하지만 일부 패턴은 너무 미묘하거나 복잡해서 인간의 눈으로는 포착하기 어렵습니다. 예를 들어, 일반적인 혈액 검사만으로는 초기 췌장암을 안정적으로 발견할 수 없습니다.
이런 한계를 극복하기 위해 지도 학습(supervised machine learning) 기반의 예측 모델들이 개발되고 있습니다. 이러한 모델들은 수많은 의료 데이터에서 패턴을 학습하여 인간이 놓치기 쉬운 질병의 징후를 조기에 포착할 수 있습니다.
의료 AI가 분석한 생체지표 데이터를 검토하는 의료진
문제는 이러한 AI 모델이 성공적으로 작동할 때 발생합니다. 패혈증 예측 모델을 예로 들어보겠습니다. 패혈증은 조기 발견이 어렵고 사망률이 30-40%에 달하는 위험한 질환입니다. AI 모델이 패혈증 위험을 조기에 감지하여 의료진에게 알리면, 의료진은 즉시 항생제나 수액을 투여하여 환자를 치료합니다.
여기서 역설이 시작됩니다. AI의 성공적인 예측과 의료진의 적절한 개입으로 환자는 패혈증에 걸리지 않게 됩니다. 그런데 전자건강기록(EHR)에는 ‘패혈증 징후가 나타났지만 패혈증이 발생하지 않은’ 케이스로 기록됩니다. 이는 원래 패혈증과 연관된 패턴이 이제 ‘패혈증 아님’과 연관된 것으로 데이터에 기록되는 것을 의미합니다.
전자건강기록의 순환 구조가 만드는 함정
현재 의료 AI 시스템의 핵심 문제는 전자건강기록(EHR)의 순환 구조에 있습니다. EHR은 환자의 검사 결과, 투약 정보, 임상 기록, 감염이나 사망 같은 주요 사건들을 지속적으로 기록하는 동적 데이터베이스입니다.
AI 모델 개발과 운영 과정은 다음과 같은 순환 구조를 가집니다:
- 데이터 추출: EHR에서 환자 데이터를 추출하여 모델을 훈련
- 모델 배포: 훈련된 모델이 새로운 환자 데이터를 분석하여 위험도 예측
- 임상 의사결정: 예측 결과를 바탕으로 의료진이 치료 결정
- 결과 기록: 치료 결과와 예측 결과가 다시 EHR에 저장
이 과정에서 ‘오염된 연관성(contaminated association)’이 발생합니다. 성공적인 AI 예측으로 인한 조기 개입이 질병 발생을 예방하면, 원래 질병과 연관된 징후들이 ‘질병 없음’과 연관된 것으로 데이터에 기록됩니다. 이는 마치 아이에게 “2+2=4이다. 때로는 3이기도 하고, 5가 아닐 때도 있다”라고 가르치는 것과 같습니다.
복합적 상호작용의 예상치 못한 결과
상황은 여러 AI 모델이 동시에 사용되는 임상 환경에서 더욱 복잡해집니다. 예를 들어, 한 모델은 급성 신부전(AKI) 위험을 예측하고, 다른 모델은 혈전 위험을 예측한다고 가정해보겠습니다.
이 두 모델은 서로 다른 질환을 다루지만, 크레아티닌 수치, 혈소판 수, 염증 지표 등 동일한 검사 결과를 사용합니다. 급성 신부전 예측 모델의 경고에 따라 의료진이 수액 조절이나 약물 변경을 시행하면, 이는 혈전 예측 모델의 예측을 무효화하거나 신뢰도를 떨어뜨릴 수 있습니다.
더 심각한 문제는 패혈증, 폐렴, 급성 신부전 같은 중증 질환들이 종종 함께 발생한다는 점입니다. 한 질환을 성공적으로 예방하는 모델이 간접적으로 다른 질환들도 예방할 수 있는데, 이는 EHR에 여러 질환에 대한 잘못된 연관성을 동시에 생성하게 됩니다.
현재 평가 방식의 근본적 한계
의료 AI 모델의 성능은 일반적으로 이전에 보지 못한 데이터에 대한 일반화 능력으로 평가됩니다. 이는 실제 환경에서의 성능을 대변하는 지표로 여겨져 왔습니다. 하지만 이러한 평가 방식에는 치명적인 맹점이 있습니다.
모델이 학습 과정에서 데이터에 내재된 임상 의사결정, 관계, 편향을 함께 흡수한다는 점입니다. 지도 학습은 이러한 조건들이 모델 사용 중에도 안정적으로 유지될 것이라는 가정에 의존합니다. 하지만 이 기반이 흔들리면 모든 것이 무너집니다.
예를 들어, “이 환자가 내일 사망할 위험이 있는가?”라는 질문은 농촌 외래 클리닉과 심장 중환자실에서 전혀 다른 의미를 가집니다. 한 환경에서 훈련된 모델이 다른 환경에서 제대로 작동하지 않는 이유입니다.
모델의 실제 성능이 저하되는 것을 모델 드리프트(model drift)라고 합니다. 환자 인구 변화, 치료 표준의 발전, 새로운 약물, 임상 관행의 변화 등이 모델 예측의 정확도를 떨어뜨릴 수 있습니다. 일반적으로는 더 새롭고 대표적인 데이터로 모델을 재훈련하는 것이 성능 회복의 최선책으로 여겨집니다.
하지만 EHR 데이터베이스가 잘못된 연관성으로 오염되면 재훈련이 사실상 불가능해집니다. 모델 훈련에 사용되는 데이터셋에 패혈증을 의미하는 패턴이 동시에 ‘패혈증 아님’을 의미하는 모순된 정보가 포함되기 때문입니다.
성능 평가의 새로운 딜레마
현재 의료 AI 분야의 핵심 관행들에 대해서도 근본적인 의문이 제기됩니다. 모델이 배포된 후 성능을 모니터링하는 방식부터 문제가 있습니다.
만약 모델이 부작용을 성공적으로 예방한다면, 예측된 결과는 실제로 발생하지 않습니다. 예를 들어, 환자들이 패혈증으로 사망하지 않게 되면, 모델의 실제 성능은 떨어진 것처럼 보일 수 있습니다. 하지만 성능 저하는 모델이 실제로 잘못된 예측을 하고 있다는 의미일 수도 있습니다. 이 두 상황을 구분하기는 매우 어렵습니다.
이를 개선하기 위한 한 가지 방법은 모델이 활성화된 기간과 비활성화된 기간의 결과를 정기적으로 비교하는 것입니다. 이런 비교를 통해 모델이 실제로 효과적인지, 아니면 성능이 부족한지 판단할 수 있습니다.
하지만 여러 모델과 의료진이 함께 일하는 실제 환자 치료 환경은 통제된 조건과는 거리가 멉니다. 무작위 대조 임상시험(RCT)이 여전히 치료법과 모델 평가의 황금 표준이지만, 일상적인 임상 환경에서 그 수준의 통제를 적용하기는 거의 불가능합니다.
지속 가능한 의료 AI를 위한 해결책
이러한 문제들을 해결하기 위해서는 의료 AI 개발과 배포에 대한 근본적인 접근 방식의 변화가 필요합니다.
데이터 추적 시스템 구축이 가장 중요합니다. AI 모델의 예측이 어떤 데이터에 영향을 미쳤는지 체계적으로 추적하고 기록하는 시스템이 필요합니다. 이를 통해 오염된 데이터를 식별하고 분리할 수 있어야 합니다.
모델 간 상호작용 모니터링도 필수적입니다. 복수의 AI 모델이 동시에 사용되는 환경에서는 각 모델이 다른 모델의 성능에 미치는 영향을 지속적으로 모니터링해야 합니다.
적응형 평가 방법론 개발이 필요합니다. 정적인 성능 지표가 아닌, 모델의 실제 임상적 가치와 데이터 영향을 종합적으로 평가할 수 있는 동적 평가 시스템을 구축해야 합니다.
규제 체계의 진화도 중요합니다. 현재의 의료기기 승인 과정은 이러한 복합적 상호작용을 충분히 고려하지 못하고 있습니다. 의료 AI의 특성을 반영한 새로운 규제 프레임워크가 필요합니다.
미래 의료 AI의 방향성
의료 AI가 진정으로 환자에게 도움이 되려면, 단순히 예측 정확도를 높이는 것을 넘어서 장기적 데이터 무결성과 시스템 안정성을 보장해야 합니다. 이는 기술적 도전이자 동시에 의료 시스템 전체의 철학적 전환을 요구합니다.
성공적인 의료 AI는 역설적으로 자신의 성공을 위해 데이터 품질을 희생할 수 있다는 점을 인식하고, 이를 방지하기 위한 체계적 접근이 필요합니다. 의료 AI의 미래는 단순히 더 나은 알고리즘을 개발하는 것이 아니라, 데이터의 순환 구조를 이해하고 관리하는 지혜에 달려 있습니다.
의료진과 환자의 안전을 최우선으로 하면서도, AI 기술의 혜택을 지속적으로 누릴 수 있는 균형점을 찾는 것이 우리가 해결해야 할 핵심 과제입니다.
참고자료
- Medical AI can transform medicine — but only if we carefully track the data it touches – Nature
- AI In Healthcare Market Size, Share | Industry Report, 2030 – Grand View Research
- Empirical data drift detection experiments on real-world medical imaging datasets – Nature Communications
- FDA-Authorized AI/ML Tool for Sepsis Prediction: Development and Validation – New England Journal of Medicine AI
Comments