AI Sparkup

복잡한 AI 세상을 읽는 힘

의료 조언을 구하는 사람들, AI 챗봇에서 얼마나 도움을 받을까? – 옥스포드 연구 분석

AI와 의료 서비스의 만남 / 출처: Unsplash

의료시스템 과부하로 인한 AI 챗봇 의존도 증가

의료 시스템이 긴 대기 시간과 비용 상승으로 압박받는 가운데, 많은 사람들이 AI 기반 챗봇을 이용해 건강 조언을 구하고 있습니다. 최근 조사에 따르면 미국 성인 6명 중 1명은 월 1회 이상 의료 상담을 위해 ChatGPT와 같은 AI 챗봇을 이용하고 있습니다. 쉬운 접근성과 즉각적인 응답이라는 매력적인 요소 때문에 이러한 추세는 계속 증가할 것으로 예상됩니다.

하지만 최근 옥스포드 인터넷 연구소(Oxford Internet Institute)가 주도한 연구에 따르면, AI 챗봇에 너무 의존하는 것은 생각보다 위험할 수 있습니다. 사람들이 최적의 건강 조언을 얻기 위해 챗봇에 어떤 정보를 제공해야 하는지 모르는 경우가 많기 때문입니다.

옥스포드 연구: AI 챗봇과 의료 조언의 현실

옥스포드 연구진은 영국의 약 1,300명을 대상으로 의사들이 작성한 의료 시나리오를 제시하고, 참가자들이 AI 챗봇을 활용해 건강 상태를 식별하고 적절한 조치(의사 방문 또는 병원 방문 등)를 결정하도록 했습니다. 참가자들은 ChatGPT의 GPT-4o, Cohere의 Command R+, Meta의 Llama 3 등 세 종류의 AI 챗봇을 사용했습니다.

옥스포드 인터넷 연구소 로고 / 출처: 옥스포드 대학교

“연구 결과, 양방향 의사소통 장애가 드러났습니다,” 라고 연구의 공동 저자이자 옥스포드 인터넷 연구소의 대학원 연구 책임자인 Adam Mahdi는 설명합니다. “챗봇을 사용한 참가자들은 인터넷 검색이나 자신의 판단력과 같은 전통적인 방법에 의존한 참가자들보다 더 나은 결정을 내리지 못했습니다.”

연구 결과: 놀라운 격차

이 연구에서 가장 주목할 만한 점은 AI 챗봇 자체의 성능과 사람들이 챗봇을 사용할 때의 성능 간에 큰 차이가 있다는 것입니다:

  • AI 챗봇만으로 테스트했을 때: AI 챗봇은 94.9%의 경우에서 관련 건강 상태를 정확히 식별하고, 56.3%의 경우에서 올바른 조치를 권장했습니다.
  • 사람과 상호작용했을 때: 챗봇을 사용한 참가자들은 34.5% 이하의 경우에서만 관련 건강 상태를 식별했고, 44.2% 이하의 경우에서만 올바른 조치를 식별했습니다.
  • 대조군과 비교: 놀랍게도, 챗봇을 사용한 참가자들은 대조군(전통적인 방법을 사용한 참가자들)보다 관련 건강 상태를 식별할 가능성이 더 낮았습니다(34.5% vs 47.0%).

또한 대부분의 참가자들은 자신의, 또는 시나리오 속 건강 상태의 심각성을 과소평가하는 경향이 있었습니다.

왜 이런 문제가 발생할까?

연구진은 AI와 사용자 간의 상호작용에서 두 가지 주요 문제점을 발견했습니다:

  1. 불완전한 정보 제공: 사용자들이 AI 챗봇에 질문할 때 중요한 세부 정보를 생략하는 경우가 많았습니다. 예를 들어, 통증의 위치, 심각성, 빈도와 같은 중요한 정보를 누락했습니다.
  2. 응답 해석의 어려움: AI 챗봇은 종종 좋은 조언과 부적절한 조언이 혼합된 응답을 제공했고, 이를 해석하기 어려웠습니다. 심지어 동일한 증상을 설명했는데도 다른 참가자에게 완전히 다른 조언을 제공하는 경우도 있었습니다.

“사용자들이 받은 응답은 종종 좋은 조언과 부적절한 조언이 혼합되어 있었습니다. 현재 챗봇 평가 방법은 실제 사용자와의 상호작용 복잡성을 반영하지 않습니다.”
– Adam Mahdi, 옥스포드 인터넷 연구소

표준 벤치마크의 한계

이 연구의 또 다른 중요한 발견은 의학 지식을 평가하는 표준 벤치마크(예: 의학 면허 시험 문제)가 실제 사용자와 AI의 상호작용에서 발생하는 문제를 예측하지 못한다는 점입니다. 연구진은 의학 면허 시험 문제와 같은 표준 테스트에서 AI의 성능을 비교했지만, 이러한 벤치마크 점수가 실제 상호작용 성능과 거의 관계가 없다는 것을 발견했습니다.

또한 시뮬레이션된 사용자 상호작용 테스트도 실제 사람들과의 상호작용을 정확히 반영하지 못했습니다. 시뮬레이션된 참가자들은 실제 참가자들보다 더 좋은 성능을 보였고, 결과의 분포가 인간의 다양성을 반영하지 못했습니다.

기술 기업들의 의료 AI 개발 현황

이러한 우려에도 불구하고, 기술 기업들은 건강 결과를 개선하기 위한 방법으로 AI를 적극적으로 추진하고 있습니다:

  • Apple은 운동, 식이, 수면과 관련된 조언을 제공할 수 있는 AI 도구를 개발 중입니다.
  • Amazon은 의료 데이터베이스를 분석하여 “건강의 사회적 결정 요인”을 찾는 AI 기반 방법을 탐구하고 있습니다.
  • Microsoft는 환자가 의료 제공자에게 보내는 메시지를 분류하는 AI 개발을 지원하고 있습니다.

그러나 의료 전문가들과 환자들은 AI가 고위험 의료 응용 분야에 준비되었는지에 대해 의견이 분분합니다. 미국 의사협회(AMA)는 임상 결정을 위해 ChatGPT와 같은 챗봇을 사용하지 말 것을 권고하고 있으며, OpenAI를 포함한 주요 AI 기업들은 자사의 챗봇 출력을 기반으로 진단을 내리지 말 것을 경고하고 있습니다.

건강 정보 검색에 AI를 활용할 때 주의할 점

옥스포드 연구의 결과는 의료 조언을 위해 AI 챗봇을 사용할 때 더욱 신중한 접근이 필요하다는 것을 시사합니다. 다음은 AI 챗봇을 건강 정보 검색에 활용할 때 고려해야 할 몇 가지 사항입니다:

  1. 중요한 세부 정보 제공: AI 챗봇에 질문할 때는 증상의 위치, 심각성, 지속 시간, 악화 요인 등 모든 관련 정보를 상세히 제공하세요.
  2. AI 조언을 절대적으로 믿지 말 것: AI 챗봇의 조언은 참고용으로만, 실제 의료 결정은 전문가와 상담 후 내리는 것이 바람직합니다.
  3. 여러 소스 활용: 건강 정보를 검색할 때는 AI 챗봇과 함께 공신력 있는 의학 웹사이트나 전문가 조언을 함께 참고하세요.
  4. AI의 한계 인식: AI는 환자와의 정서적 연결이 없으며, 의사처럼 미묘한 비언어적 신호를 읽을 수 없다는 한계가 있습니다.

결론: 균형 잡힌 접근법

“우리는 의료 결정을 위해 신뢰할 수 있는 정보 소스에 의존할 것을 권장합니다,”라고 Mahdi는 말합니다. “현재 챗봇 평가 방법은 사용자와의 상호작용 복잡성을 반영하지 않습니다. 새로운 약물에 대한 임상 시험과 마찬가지로, AI 시스템도 실제 세계에 배포되기 전에 실제 환경에서 테스트되어야 합니다.”

이 연구는 AI 챗봇이 의료 상담에 유용한 도구가 될 수 있는 잠재력이 있지만, 현재 상태로는 인간 의료 전문가를 대체할 준비가 되어 있지 않다는 것을 보여줍니다. AI와 인간 사용자 간의 효과적인 커뮤니케이션을 위한 개선이 필요하며, 이를 위해서는 더 구조화된 출력, 명확한 권장 사항, 사용자가 결정을 내리는 데 도움이 되는 설명 등이 필요합니다.

디지털 시대에서 건강 정보에 접근하는 방식이 변화하고 있지만, 균형 잡힌 접근법이 중요합니다. AI 기술의 편리함과 효율성을 활용하면서도, 그 한계를 인식하고 중요한 건강 문제에 대해서는 전문가의 조언을 구하는 지혜가 필요합니다.

참고자료:

Comments