AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

GPT-Realtime-2 – GPT-5급 추론을 탑재한 OpenAI 실시간 음성 AI 모델

OpenAI가 2026년 5월 7일 Realtime API에 세 가지 새 음성 모델을 출시했다. GPT-Realtime-2는 GPT-5급 추론을 음성 대화에 통합한 첫 실시간 음성 모델이고, GPT-Realtime-Translate는 70개+ 언어를 생중계 번역하며, GPT-Realtime-Whisper는 저지연 스트리밍 STT를 제공한다.

GPT-Realtime-2

이전 세대(GPT-Realtime-1.5)와 비교해 추론 능력과 에이전트 워크플로 지원이 크게 향상됐다.

주요 기능

  • Preamble: “잠깐만요”, “확인해볼게요” 같은 짧은 선행 문구 지원. 사용자가 에이전트가 처리 중임을 인식할 수 있도록 한다.
  • 병렬 도구 호출: 여러 도구를 동시에 호출하고, “캘린더 확인 중”, “조회 중”처럼 동작을 음성으로 고지한다.
  • 향상된 오류 복구: “지금 처리에 문제가 있습니다”처럼 자연스럽게 실패를 알려 대화가 끊기지 않는다.
  • 컨텍스트 창 확장: 32K → 128K 토큰으로 확대. 긴 세션과 복잡한 에이전트 워크플로 지원.
  • 조정 가능한 추론 레벨: minimal, low, medium, high, xhigh 중 선택. 기본값은 low로 낮은 지연을 우선한다.
  • 음색·어조 제어: 문제 해결 시 차분, 좌절한 사용자에게 공감, 성공 알림 시 밝게 등 상황별 어조 조절.

성능

  • Big Bench Audio(오디오 지능 추론): GPT-Realtime-1.5 대비 15.2% 향상 (high 모드)
  • Audio MultiChallenge(멀티턴 지시 이행): GPT-Realtime-1.5 대비 13.8% 향상 (xhigh 모드)

실제 적용 사례 (초기 테스트)

  • Zillow: 어드버서리얼 벤치마크에서 통화 성공률 26포인트 향상 (95% vs 69%), Fair Housing 컴플라이언스 개선
  • Deutsche Telekom: 다국어 고객 지원 음성 경험 구축

GPT-Realtime-Translate

  • 입력 언어: 70개+
  • 출력 언어: 13개
  • 활용: 고객 지원, 국경 간 영업, 교육, 미디어, 글로벌 크리에이터 플랫폼
  • BolnaAI 평가: 힌디어·타밀어·텔루구어에서 타 모델 대비 Word Error Rate 12.5% 낮음

GPT-Realtime-Whisper

저지연 스트리밍 STT로 말하는 동안 텍스트가 실시간 생성된다.

  • 활용: 회의 실시간 캡션, 강의 노트, 방송 자막, 고객 지원·헬스케어·영업 콜 자동 기록
  • 기존 Whisper 모델(whisper-cpp)은 오프라인 처리 전용이었으나, GPT-Realtime-Whisper는 스트리밍 특화

가격

모델가격
GPT-Realtime-2$32 / 1M 오디오 입력 토큰 ($0.40 캐시) · $64 / 1M 오디오 출력 토큰
GPT-Realtime-Translate$0.034 / 분
GPT-Realtime-Whisper$0.017 / 분

안전 및 정책

  • 세션에 유해 콘텐츠 감지 분류기를 실시간 적용해 위반 감지 시 대화 중단
  • EU 데이터 레지던시 지원
  • 개발자는 최종 사용자에게 AI 대화임을 명시해야 함

시작하기

Realtime API Playground에서 테스트하거나, Codex에서 WebRTC 음성 에이전트 프로젝트를 즉시 생성할 수 있다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)