같은 MRI 영상을 두고 의사는 “힘줄의 절반 이상이 찢어졌다”고 했습니다. AI는 “힘줄이 멀쩡하다”고 했죠. 둘 중 하나는 크게 틀린 셈인데, 정작 글쓴이는 어느 쪽도 확신하지 못한 채 글을 맺습니다.

개발자 Antoine Finkelstein이 어깨 통증으로 찍은 MRI 결과를 Claude Code의 Opus 4.8에 직접 넘겨 2차 소견을 받아본 경험을 자신의 블로그에 공유했습니다. 정형외과에서는 견갑하근 힘줄의 50% 이상 부분 파열이라는 진단과 함께 곧바로 적극적인 치료를 시작했는데, 어딘가 성급하다고 느낀 그가 AI에게 같은 영상을 다시 읽혀보자 정반대 결과가 나온 겁니다.
출처: Using Opus 4.8 to get a second opinion on an MRI and where it leaves me – Antoine Finkelstein
채팅 업로드가 아니라 ‘작업’을 시켰다
이 사례에서 눈여겨볼 점은 그가 챗봇에 이미지 몇 장을 올린 게 아니라는 겁니다. 병원에서 받은 자료는 확장자도 없는 수백 개 파일로 이루어진 266MB짜리 DICOM 원본이었습니다. 그는 코드 실행과 패키지 설치가 가능한 Claude Code 환경에서 Opus 4.8을 돌렸고, 분석에 필요한 도구를 알아서 깔도록 맡겼습니다.
글쓴이는 같은 모델이라도 Claude.ai 채팅과 Claude Code의 차이는 엄청나다고 말합니다. 의료 영상 같은 비정형 원본 데이터를 다루려면 단순히 답을 받는 대화가 아니라, 직접 코드를 짜고 실행하는 능력이 필요했기 때문입니다. 의학도 코딩도 전문가가 아닌 개인이, 한 시간 남짓 만에 영상의학 영역의 1차 판독을 시도해본 셈입니다. 그가 AI에 준 정보는 “오른쪽 어깨 통증 2~3주”라는 한 줄이 전부였습니다. 나중에 보니 사람 의사들이 받은 것보다도 적은 양이었죠.
두 진단이 충돌하자, 중재를 맡겼다
문제는 첫 결과가 너무 극단적이었다는 점입니다. 의사는 50%가 넘는 파열을 봤는데 AI는 온전한 힘줄이라고 했으니까요. 그래서 그는 두 소견을 나란히 놓고, AI에게 어느 쪽이 더 맞는지 가려보게 했습니다.
이번에는 사람 의사의 판독지와, 그가 ChatGPT와 나눈 자가 진단용 동작 테스트 기록까지 함께 줬습니다. 중재 방식 자체가 눈에 띕니다. Opus는 여러 서브에이전트를 띄워, 기존 맥락에 오염되지 않은 새 분석을 각각 받아내는 식으로 접근했습니다. 한 모델이 자기 결론을 정당화하지 않도록 편향을 줄이는 구조를 스스로 설계한 겁니다. 결론은 “파열은 없고 경미한 건증”이었습니다. 사람 판독을 뒤집는 쪽이었죠. 글쓴이는 AI가 다른 부분에서는 “판단을 못 내리겠다”고 솔직히 물러섰으면서, 이 대목만큼은 꽤 단호하게 결론 냈다는 점이 신기하다고 적습니다.
새 능력을 얻었지만, 어디까지 믿을 것인가
여기서 분명히 해둘 게 있습니다. AI의 멀쩡하다는 판정이 맞다는 보장은 어디에도 없습니다. 글쓴이 본인도 자신이 틀렸을 수도, AI가 틀렸을 수도, 의사 말을 오해했을 수도 있다고 못 박습니다. 이건 검증된 결과가 아니라 한 개인의 실험 기록입니다.
그럼에도 이 글이 남기는 감각은 묘합니다. 신뢰하는 전문가의 손에 온전히 맡겨졌을 때의 평온함을, AI가 불편한 방식으로 흔들어버린다는 것이죠. 진단이 과했던 것 같긴 한데, 그렇다고 AI를 전부 믿을 수도 없는 상태. 그는 다른 의사를 찾아갈지, 그냥 재활하며 지켜볼지 정하지 못한 채 글을 맺습니다. 그의 바람은 소박하면서도 묵직합니다. 몇 세대 뒤의 모델이라면, 우리가 AI에게 이메일 교정을 맡기듯 MRI 판독도 맡길 수 있게 되기를. 지금의 개인이 손에 쥔 건 그 미래의 예고편인 동시에, 아직은 누구를 믿어야 할지 모르는 불확실함입니다.

답글 남기기