AI가 응급실 진단에서 의사를 앞섰다, 하버드 연구가 밝힌 숫자

2026-05-06

﹒

2 minutes

정보가 부족할수록 AI는 오히려 강해졌습니다. 환자가 응급실에 처음 도착하는 순간, 의사에게 주어지는 정보는 바이탈 수치와 간호사의 짧은 메모 몇 줄뿐입니다. 하버드 연구팀은 바로 이 조건에서 AI와 의사를 맞붙였고, AI가 앞섰습니다.

사진 출처: The Guardian

하버드 의대 연구팀이 스탠퍼드 연구진과 함께 OpenAI의 추론 모델 o1을 응급실 실제 환자 데이터로 검증한 결과를 Science지에 발표했습니다. 텍스트 기반 전자 의무기록만을 활용해 AI와 의사의 진단 정확도를 비교한 실험으로, LLM이 임상 추론에서 “대부분의 벤치마크를 넘어섰다”는 것이 연구팀의 결론입니다.

출처: AI outperforms doctors in Harvard trial of emergency triage diagnoses – The Guardian / 원문 논문 – Science

정보가 가장 적은 순간, AI가 가장 강했다

실험은 보스턴 한 병원 응급실에 내원한 76명의 실제 환자를 대상으로 진행됐습니다. AI와 의사 2인 팀은 동일한 전자 의무기록을 받았습니다. 바이탈 수치, 나이, 내원 이유를 담은 짧은 간호 메모가 전부였죠.

이 조건에서 AI의 진단 정확도는 67%, 의사 팀은 50~55%였습니다. 정보량이 늘어날수록 격차는 좁혀졌습니다. 정보가 충분한 상황에서는 AI 82% 대 의사 70~79%로, 이 차이는 통계적으로 유의미하지 않았습니다. 즉, AI의 강점은 제한된 단서로 빠르게 판단해야 하는 트리아지 단계에 집중됩니다.

평가는 이중맹검으로 이루어졌습니다. 결과를 채점한 의사 2명은 어떤 답변이 AI의 것인지 알지 못했습니다.

치료 계획에서는 격차가 더 컸다

단기 진단이 아닌 장기 치료 계획 영역에서는 차이가 더 두드러졌습니다. 5가지 임상 사례를 놓고 AI와 의사 46명이 각각 항생제 처방 방식, 임종 계획 등을 수립했을 때 AI 89% 대 의사 34%라는 결과가 나왔습니다.

연구팀의 피터 브로두어는 치료 계획이 진단보다 복잡한 이유를 이렇게 설명합니다. 객관적 수치뿐 아니라 환자가 처한 상황, 맥락, 주관적 요소까지 함께 고려해야 하는 작업이라고요. 추론 모델이 이런 다층적 판단에서도 강점을 보인다는 점이 이번 연구의 핵심 발견 중 하나입니다.

AI가 잡아낸 연결고리

가장 인상적인 사례 중 하나는 폐 혈전 환자입니다. 항응고제를 써도 증상이 악화되자 의사들은 약이 듣지 않는다고 판단했습니다. 반면 AI는 환자의 루푸스 병력에 주목했습니다. 항응고제 실패가 아니라 루푸스로 인한 폐 염증일 수 있다는 것이었고, 결과적으로 AI가 맞았습니다.

이는 AI가 텍스트로 기록된 모든 맥락을 동등하게 처리하는 방식에서 비롯됩니다. 희귀 질환이나 복잡한 내과 케이스에서 AI의 성능이 특히 두드러진 것도 같은 이유입니다. 뉴잉글랜드 저널 오브 메디신에 실린 난이도 높은 진단 퀴즈들, 1959년부터 컴퓨터 진단 능력의 벤치마크로 쓰여온 케이스들에서 AI는 거의 최적에 가까운 정확도를 보였습니다.

의사가 AI를 따라가는 경향

연구에서 주목할 만한 또 다른 발견이 있습니다. AI의 답을 먼저 본 의사들이 독립적으로 판단하는 대신 AI 의견을 따르는 경향을 보인다는 점입니다. 셰필드 대학의 웨이 싱 교수는 AI가 일상적으로 활용될수록 이 경향이 강화될 수 있다고 지적합니다. 도구가 더 잘하면 인간이 의존하게 되는 자연스러운 흐름이지만, 임상 현장에서 이것이 어떤 결과로 이어질지는 아직 검증되지 않았습니다.

텍스트 바깥의 세계

연구자들은 중요한 한계도 함께 밝혔습니다. 이번 실험은 전적으로 텍스트 기반입니다. 환자의 표정, 호흡 상태, 고통의 정도처럼 실제 진료실에서 의사가 읽어내는 비언어적 신호는 측정 대상이 아니었습니다. AI는 차트를 보는 의사, 즉 ‘서면 소견을 내는 전문가’에 가까운 방식으로 평가된 셈입니다.

책임 소재도 여전히 불분명합니다. AI가 틀렸을 때 누구의 책임인지에 대한 공식 프레임워크가 없다는 점을 주저자 아담 로드먼은 직접 언급했습니다. 연구팀이 다음 단계로 전향적 임상시험을 제안하는 이유입니다.

시니어 공동저자 아르준 만라이는 이번 결과를 두고 “AI가 의사를 대체한다는 의미가 아니다”라고 선을 긋습니다. 그가 보는 것은 대체가 아닌 구조 변화입니다. 의사, 환자, AI 세 축으로 이루어진 새로운 진료 모델, 앞으로 10년 안에 현실이 될 수 있다는 전망을 연구팀은 조심스럽게 내놓고 있습니다.

참고자료: AI Outperforms Doctors in Emergency Room Tasks, New Harvard Study Shows – Harvard Magazine

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI가 응급실 진단에서 의사를 앞섰다, 하버드 연구가 밝힌 숫자

정보가 가장 적은 순간, AI가 가장 강했다

치료 계획에서는 격차가 더 컸다

AI가 잡아낸 연결고리

의사가 AI를 따라가는 경향

텍스트 바깥의 세계

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Qwen이 Opus급이라는 말의 진실, 직접 굴려본 창업자의 현실 보고서

무료 ChatGPT가 의사 답변보다 높은 점수를 받았다, GPT-5.5 Instant 건강 업그레이드

AI 에이전트는 왜 아직 사람이 필요한가, goose 팀의 자기개선 루프

Claude가 신분증을 요구하기 시작했다, AI 챗봇에 들어온 신원 인증의 의미