AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

무료 ChatGPT가 의사 답변보다 높은 점수를 받았다, GPT-5.5 Instant 건강 업그레이드

같은 좌골신경통 질문에 OpenAI의 옛 모델 GPT-1은 “잘 모르겠어요”로 시작하는 횡설수설한 소설 같은 대화문을 뱉어냈습니다. 같은 질문에 GPT-5.5 Instant는 MRI를 먼저 권하는 이유를 의학 출처까지 달아 여섯 가지로 정리해 답합니다. 불과 몇 년 사이, AI의 건강 답변은 이렇게 달라졌습니다.

사진 출처: OpenAI

OpenAI가 2026년 6월 18일, ChatGPT의 건강 답변 성능을 끌어올린 GPT-5.5 Instant를 공개했습니다. 핵심은 두 가지입니다. 비싼 Thinking 모델급 성능을 무료 사용자에게 내려보냈다는 점, 그리고 의사가 직접 작성한 답변과 비교해 더 높은 점수를 받았다는 OpenAI 자체 평가입니다. 매주 2억 3천만 명이 ChatGPT에 건강 질문을 던지는 상황에서 나온 발표입니다.

출처: Improving health intelligence in ChatGPT – OpenAI

무엇이 바뀌었나

GPT-5.5 Instant는 2026년 5월 출시돼 기존 GPT-5.3 Instant를 대체한 모델입니다. 무료 ChatGPT 사용자의 기본 모델이라, 돈을 내지 않아도 누구나 쓸 수 있다는 점이 이번 발표의 무게중심입니다.

OpenAI는 이 모델이 가장 까다로운 건강 평가에서 자사의 프런티어 Thinking 모델과 비슷한 수준에 도달했다고 밝혔습니다. 그동안 정교한 의학 추론은 비싸고 느린 상위 모델의 몫이었는데, 그 능력이 무료 티어로 내려온 셈입니다. 개선된 부분은 추상적이지 않습니다. 응급 상황을 알아차리고, 판단에 필요한 맥락을 되묻고, 불확실성을 과장 없이 설명하고, 복잡한 정보를 쉽게 풀어주는 능력이 좋아졌다고 합니다.

어떻게 측정했나

OpenAI는 세 가지 방식으로 성능을 쟀습니다.

  1. 자체 벤치마크. HealthBench와 그 임상 버전인 HealthBench Professional을 사용합니다. 시험 문제식이 아니라, 실제 건강 대화에 의사가 작성한 채점 기준(루브릭)을 적용해 정확성·안전성·소통·맥락 인식 같은 항목을 평가합니다.
  2. 의사와의 직접 비교. 의사들에게 시간 제한 없이 인터넷까지 쓰되 AI는 쓰지 못하게 하고 답변을 작성하게 했습니다. 그런 다음 별도의 의사 패널이 이 답변과 모델 답변을 3,500건에 걸쳐 비교했습니다. 그 결과 GPT-5.5 Instant가 정확성·소통·완결성 등에서 의사 작성 답변보다 높은 평가를 받았습니다.
  3. 실사용 트래픽 모니터링. 주간 수십억 건의 실제 메시지를 프라이버시 보호 모니터로 추적한 결과, 사실관계 문제로 표시된 응답 비율이 최근 두 달 사이 71% 줄었다고 합니다.

흥미로운 건 실패 패턴 분석입니다. OpenAI는 GPT-5.5 Instant가 옛 모델뿐 아니라 사람 의사보다도 특정 실수가 적었다고 말합니다. 지역 의료 상황을 고려하지 못하거나, 위험 신호를 놓치거나, 사용자에게 추가 정보를 되묻지 않는 경우가 더 드물었다는 것입니다.

260명 의사가 만든 채점표

이 성능 개선의 바탕에는 사람이 있습니다. OpenAI는 60개국, 49개 언어, 26개 전문 분야에 걸친 260명 이상의 의사 네트워크와 협력합니다. 이들은 모델 답변이 정확한지, 명료한지, 적절히 신중한지를 검토하고, 답이 너무 자신만만하거나 진료를 권해야 할 지점을 놓치는 부분을 짚어냅니다.

지금까지 의사들이 검토한 예시 응답은 70만 건이 넘습니다. 몇 분에 한 번씩 의사 한 명이 새 응답을 들여다보는 셈입니다. 이 검토가 채점 기준으로 바뀌고, 그 기준이 다시 모델 평가의 잣대가 됩니다. AI가 어디서 나아졌고 어디서 여전히 부족한지를 가늠하는 토대가 사람의 손에서 나온다는 뜻입니다.

자체 평가라는 전제

여기서 한 걸음 물러설 필요가 있습니다. “의사보다 높은 점수”라는 문장은 강력하지만, 이 평가를 설계하고 채점한 주체가 OpenAI 자신입니다. HealthBench도, 의사 비교 패널도, 71% 감소 수치도 모두 사내에서 만들고 측정한 결과이며, 외부의 독립적 검증이나 동료 심사를 거치지 않았습니다.

건강은 답이 틀렸을 때 대가가 큰 영역입니다. 그래서 같은 수치라도 “회사가 만든 자를 회사가 댔다”는 측정의 빈틈을 함께 봐야 합니다. OpenAI 역시 모델이 여전히 개선이 필요한 지점이 있다고 인정합니다. 무료로 정교한 건강 답변을 받을 수 있게 된 변화는 분명 의미가 크지만, 그 답을 진료의 대체가 아니라 “의사에게 무엇을 물어볼지 정리하는 출발점”으로 두는 편이 이 발표의 무게에 맞는 읽기입니다.

원문에는 좌골신경통 사례에서 GPT-5.5가 실제로 어떻게 답하는지 전문이 실려 있고, HealthBench Professional의 세부 평가 항목도 논문으로 공개돼 있습니다.


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다