같은 좌골신경통 질문에 OpenAI의 옛 모델 GPT-1은 “잘 모르겠어요”로 시작하는 횡설수설한 소설 같은 대화문을 뱉어냈습니다. 같은 질문에 GPT-5.5 Instant는 MRI를 먼저 권하는 이유를 의학 출처까지 달아 여섯 가지로 정리해 답합니다. 불과 몇 년 사이, AI의 건강 답변은 이렇게 달라졌습니다.

OpenAI가 2026년 6월 18일, ChatGPT의 건강 답변 성능을 끌어올린 GPT-5.5 Instant를 공개했습니다. 핵심은 두 가지입니다. 비싼 Thinking 모델급 성능을 무료 사용자에게 내려보냈다는 점, 그리고 의사가 직접 작성한 답변과 비교해 더 높은 점수를 받았다는 OpenAI 자체 평가입니다. 매주 2억 3천만 명이 ChatGPT에 건강 질문을 던지는 상황에서 나온 발표입니다.
출처: Improving health intelligence in ChatGPT – OpenAI
무엇이 바뀌었나
GPT-5.5 Instant는 2026년 5월 출시돼 기존 GPT-5.3 Instant를 대체한 모델입니다. 무료 ChatGPT 사용자의 기본 모델이라, 돈을 내지 않아도 누구나 쓸 수 있다는 점이 이번 발표의 무게중심입니다.
OpenAI는 이 모델이 가장 까다로운 건강 평가에서 자사의 프런티어 Thinking 모델과 비슷한 수준에 도달했다고 밝혔습니다. 그동안 정교한 의학 추론은 비싸고 느린 상위 모델의 몫이었는데, 그 능력이 무료 티어로 내려온 셈입니다. 개선된 부분은 추상적이지 않습니다. 응급 상황을 알아차리고, 판단에 필요한 맥락을 되묻고, 불확실성을 과장 없이 설명하고, 복잡한 정보를 쉽게 풀어주는 능력이 좋아졌다고 합니다.
어떻게 측정했나
OpenAI는 세 가지 방식으로 성능을 쟀습니다.
- 자체 벤치마크. HealthBench와 그 임상 버전인 HealthBench Professional을 사용합니다. 시험 문제식이 아니라, 실제 건강 대화에 의사가 작성한 채점 기준(루브릭)을 적용해 정확성·안전성·소통·맥락 인식 같은 항목을 평가합니다.
- 의사와의 직접 비교. 의사들에게 시간 제한 없이 인터넷까지 쓰되 AI는 쓰지 못하게 하고 답변을 작성하게 했습니다. 그런 다음 별도의 의사 패널이 이 답변과 모델 답변을 3,500건에 걸쳐 비교했습니다. 그 결과 GPT-5.5 Instant가 정확성·소통·완결성 등에서 의사 작성 답변보다 높은 평가를 받았습니다.
- 실사용 트래픽 모니터링. 주간 수십억 건의 실제 메시지를 프라이버시 보호 모니터로 추적한 결과, 사실관계 문제로 표시된 응답 비율이 최근 두 달 사이 71% 줄었다고 합니다.
흥미로운 건 실패 패턴 분석입니다. OpenAI는 GPT-5.5 Instant가 옛 모델뿐 아니라 사람 의사보다도 특정 실수가 적었다고 말합니다. 지역 의료 상황을 고려하지 못하거나, 위험 신호를 놓치거나, 사용자에게 추가 정보를 되묻지 않는 경우가 더 드물었다는 것입니다.
260명 의사가 만든 채점표
이 성능 개선의 바탕에는 사람이 있습니다. OpenAI는 60개국, 49개 언어, 26개 전문 분야에 걸친 260명 이상의 의사 네트워크와 협력합니다. 이들은 모델 답변이 정확한지, 명료한지, 적절히 신중한지를 검토하고, 답이 너무 자신만만하거나 진료를 권해야 할 지점을 놓치는 부분을 짚어냅니다.
지금까지 의사들이 검토한 예시 응답은 70만 건이 넘습니다. 몇 분에 한 번씩 의사 한 명이 새 응답을 들여다보는 셈입니다. 이 검토가 채점 기준으로 바뀌고, 그 기준이 다시 모델 평가의 잣대가 됩니다. AI가 어디서 나아졌고 어디서 여전히 부족한지를 가늠하는 토대가 사람의 손에서 나온다는 뜻입니다.
자체 평가라는 전제
여기서 한 걸음 물러설 필요가 있습니다. “의사보다 높은 점수”라는 문장은 강력하지만, 이 평가를 설계하고 채점한 주체가 OpenAI 자신입니다. HealthBench도, 의사 비교 패널도, 71% 감소 수치도 모두 사내에서 만들고 측정한 결과이며, 외부의 독립적 검증이나 동료 심사를 거치지 않았습니다.
건강은 답이 틀렸을 때 대가가 큰 영역입니다. 그래서 같은 수치라도 “회사가 만든 자를 회사가 댔다”는 측정의 빈틈을 함께 봐야 합니다. OpenAI 역시 모델이 여전히 개선이 필요한 지점이 있다고 인정합니다. 무료로 정교한 건강 답변을 받을 수 있게 된 변화는 분명 의미가 크지만, 그 답을 진료의 대체가 아니라 “의사에게 무엇을 물어볼지 정리하는 출발점”으로 두는 편이 이 발표의 무게에 맞는 읽기입니다.
원문에는 좌골신경통 사례에서 GPT-5.5가 실제로 어떻게 답하는지 전문이 실려 있고, HealthBench Professional의 세부 평가 항목도 논문으로 공개돼 있습니다.

답글 남기기