AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AA-WER Streaming – 스트리밍 음성인식 모델 정확도·속도 벤치마크

AA-WER Streaming은 Artificial Analysis가 2026년 6월 공개한 스트리밍 음성인식(STT) 모델 전용 벤치마크다. 기존 일괄 처리(batch) STT 평가와 달리 실시간 음성 에이전트 사용 사례에 맞게 정확도(WER)지연(latency)을 함께 측정한다.

측정 지표

  • AA-WER: Word Error Rate. 낮을수록 정확
  • 지연(latency): 첫 번째 부분 전사까지의 시간
  • First Partial vs Final: 첫 부분 전사 시점의 WER과 최종 WER 비교
  • 가격: 1,000분당 달러

주요 결과

테스트된 스트리밍 STT 모델에서 First Partial과 Final 전사의 WER 차이는 평균 0.7%p 에 불과했다. 대부분 모델이 첫 부분 전사에서 이미 최종 정확도에 근접한다.

Pareto 최적 모델 (정확도-가격 트레이드오프)

모델WER지연가격(1k분)
ElevenLabs Scribe v2 Realtime3.6%0.14s$6.50
Cartesia Ink-23.7%$4.00
Deepgram Nova-36.7%
Deepgram Flux7.4%
Soniox11.9%$2.00 (최저가)

Final > First Partial 개선이 큰 모델

  • Voxtral Mini Transcribe Realtime: 9.6% → 5.3%
  • OpenAI GPT Realtime Whisper: 7.5% → 5.1%

이 경우 최종 전사를 기다리는 것이 정확도 면에서 의미 있다.

가격 범위

스트리밍 STT 가격은 $2~$17/1,000분 수준으로 넓게 분포한다. 최저가(Soniox $2)와 최고 정확도(ElevenLabs 3.6%)의 트레이드오프가 크다.

누가, 어떤 경우에 쓰면 좋을까

  • 음성 AI 에이전트 개발팀: 실시간 대화 응용에서 STT 모델 선택 시 이 벤치마크를 기준으로 정확도-지연-가격을 비교할 수 있다.
  • 저지연 트랜스크립션이 핵심인 서비스: ElevenLabs (0.14s)나 Cartesia가 좋은 출발점이다.
  • 비용 최우선 시나리오: Soniox의 $2 가격은 정확도를 일부 희생하지만 대량 처리에 유리하다.

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)