음성 AI는 오랫동안 묘한 불균형을 안고 있었습니다. 말을 걸면 자연스럽게 답하는데, 조금만 복잡한 요청을 하면 텍스트 모델과는 확연히 다른 한계를 드러냈죠.

OpenAI가 5월 7일, 개발자용 API를 통해 새로운 실시간 음성 모델 3종을 발표했습니다. GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper로, 각각 추론·번역·전사 역할을 나눠 맡습니다.
출처: Advancing voice intelligence with new models in the API – OpenAI
음성으로 요청하면, 생각하고 행동한다
이번 발표의 핵심은 GPT-Realtime-2입니다. 처음으로 GPT-5급 추론 능력을 실시간 음성에 탑재했습니다.
기존 음성 모델이 질문을 받고 바로 답하는 구조였다면, GPT-Realtime-2는 요청을 이해하고 맥락을 추적하며 도구를 호출한 뒤 답하는 방식으로 작동합니다. 중간에 요청이 바뀌거나 대화가 끊겨도 자연스럽게 흐름을 이어갑니다.
개발자가 활성화할 수 있는 기능 중 눈에 띄는 건 preamble입니다. 모델이 도구를 호출하거나 추론하는 동안 “잠깐 확인해볼게요”, “찾아보는 중이에요” 같은 짧은 문장을 먼저 내보내는 방식입니다. AI가 처리 중일 때 아무 말 없이 침묵하는 어색함을 없애주는 장치죠. 오류가 생겼을 때도 조용히 멈추는 대신 “지금 처리하는 데 어려움이 있어요”라고 말합니다.
추론 강도는 minimal, low, medium, high, xhigh 다섯 단계 중 선택할 수 있습니다. 기본값은 low로, 간단한 요청에서는 응답 속도를 우선합니다. 복잡한 요청에는 high나 xhigh로 올려 더 깊이 생각하게 만들 수 있습니다. Zillow는 이 모델로 부동산 음성 에이전트를 구축했는데, 가장 까다로운 테스트에서 통화 성공률이 69%에서 95%로 올랐다고 밝혔습니다.
컨텍스트 창은 기존 32K에서 128K 토큰으로 늘었고, 여러 도구를 병렬로 호출하는 것도 가능합니다.
동시 번역과 실시간 전사, 각각 별도 모델로
GPT-Realtime-Translate는 대화 중 실시간으로 번역합니다. 70개 이상의 언어를 입력받아 13개 언어로 출력합니다. 화자가 말하는 속도에 맞춰 번역하면서, 사투리나 전문 용어, 문맥 전환에도 대응합니다. Deutsche Telekom은 고객 지원에서 이 모델을 테스트 중이고, BolnaAI는 힌디어·타밀어·텔루구어 평가에서 오류율이 타 모델 대비 12.5% 낮았다고 밝혔습니다.
GPT-Realtime-Whisper는 말하는 동안 실시간으로 텍스트를 생성하는 스트리밍 전사 모델입니다. 회의가 끝난 뒤 녹음을 올려 전사하는 방식이 아니라, 대화가 진행되는 동안 바로 자막이나 요약을 만들 수 있습니다. 고객 지원, 의료, 채용 면접처럼 대화량이 많은 현장에서 후속 처리 속도를 높이는 데 쓸 수 있습니다.
세 모델은 모두 OpenAI Realtime API를 통해 제공됩니다. GPT-Realtime-2는 토큰 기준으로, 번역과 전사 모델은 분당 요금으로 청구됩니다.
음성이 인터페이스의 중심으로
OpenAI는 이번 발표에서 음성 AI를 활용하는 패턴을 세 가지로 정리했습니다.
- Voice-to-Action: 사용자가 말로 요청하면 시스템이 추론하고 도구를 호출해 처리하는 방식
- Systems-to-Voice: 소프트웨어가 맥락을 파악해 음성으로 능동적으로 안내하는 방식. 항공편이 지연됐을 때 앱이 먼저 말을 거는 상황이 여기에 해당합니다
- Voice-to-Voice: AI가 언어 장벽을 넘어 실시간으로 대화를 연결하는 방식
이 패턴들은 조합해서 쓸 수도 있습니다. 음성이 단순히 입력 수단이 아니라 추론·번역·전사를 동시에 수행하는 인터페이스로 진화하고 있다는 게 이번 발표의 핵심 메시지입니다.
참고자료:

답글 남기기