AA-WER Streaming – 스트리밍 음성인식 모델 정확도·속도 벤치마크

측정 지표
주요 결과
Pareto 최적 모델 (정확도-가격 트레이드오프)
Final > First Partial 개선이 큰 모델
가격 범위
누가, 어떤 경우에 쓰면 좋을까
참고 자료

AA-WER Streaming은 Artificial Analysis가 2026년 6월 공개한 스트리밍 음성인식(STT) 모델 전용 벤치마크다. 기존 일괄 처리(batch) STT 평가와 달리 실시간 음성 에이전트 사용 사례에 맞게 정확도(WER)와 지연(latency)을 함께 측정한다.

측정 지표

AA-WER: Word Error Rate. 낮을수록 정확
지연(latency): 첫 번째 부분 전사까지의 시간
First Partial vs Final: 첫 부분 전사 시점의 WER과 최종 WER 비교
가격: 1,000분당 달러

주요 결과

테스트된 스트리밍 STT 모델에서 First Partial과 Final 전사의 WER 차이는 평균 0.7%p 에 불과했다. 대부분 모델이 첫 부분 전사에서 이미 최종 정확도에 근접한다.

Pareto 최적 모델 (정확도-가격 트레이드오프)

모델	WER	지연	가격(1k분)
ElevenLabs Scribe v2 Realtime	3.6%	0.14s	$6.50
Cartesia Ink-2	3.7%	—	$4.00
Deepgram Nova-3	6.7%	—	—
Deepgram Flux	7.4%	—	—
Soniox	11.9%	—	$2.00 (최저가)

Final > First Partial 개선이 큰 모델

Voxtral Mini Transcribe Realtime: 9.6% → 5.3%
OpenAI GPT Realtime Whisper: 7.5% → 5.1%

이 경우 최종 전사를 기다리는 것이 정확도 면에서 의미 있다.

가격 범위

스트리밍 STT 가격은 $2~$17/1,000분 수준으로 넓게 분포한다. 최저가(Soniox $2)와 최고 정확도(ElevenLabs 3.6%)의 트레이드오프가 크다.

누가, 어떤 경우에 쓰면 좋을까

음성 AI 에이전트 개발팀: 실시간 대화 응용에서 STT 모델 선택 시 이 벤치마크를 기준으로 정확도-지연-가격을 비교할 수 있다.
저지연 트랜스크립션이 핵심인 서비스: ElevenLabs (0.14s)나 Cartesia가 좋은 출발점이다.
비용 최우선 시나리오: Soniox의 $2 가격은 정확도를 일부 희생하지만 대량 처리에 유리하다.

참고 자료

AA-WER Streaming: New Speech to Text Streaming Benchmark — Artificial Analysis (2026-06-02)
전체 결과
방법론

Like?

AI Sparkup