AA-WER Streaming은 Artificial Analysis가 2026년 6월 공개한 스트리밍 음성인식(STT) 모델 전용 벤치마크다. 기존 일괄 처리(batch) STT 평가와 달리 실시간 음성 에이전트 사용 사례에 맞게 정확도(WER)와 지연(latency)을 함께 측정한다.
측정 지표
- AA-WER: Word Error Rate. 낮을수록 정확
- 지연(latency): 첫 번째 부분 전사까지의 시간
- First Partial vs Final: 첫 부분 전사 시점의 WER과 최종 WER 비교
- 가격: 1,000분당 달러
주요 결과
테스트된 스트리밍 STT 모델에서 First Partial과 Final 전사의 WER 차이는 평균 0.7%p 에 불과했다. 대부분 모델이 첫 부분 전사에서 이미 최종 정확도에 근접한다.
Pareto 최적 모델 (정확도-가격 트레이드오프)
| 모델 | WER | 지연 | 가격(1k분) |
|---|---|---|---|
| ElevenLabs Scribe v2 Realtime | 3.6% | 0.14s | $6.50 |
| Cartesia Ink-2 | 3.7% | — | $4.00 |
| Deepgram Nova-3 | 6.7% | — | — |
| Deepgram Flux | 7.4% | — | — |
| Soniox | 11.9% | — | $2.00 (최저가) |
Final > First Partial 개선이 큰 모델
- Voxtral Mini Transcribe Realtime: 9.6% → 5.3%
- OpenAI GPT Realtime Whisper: 7.5% → 5.1%
이 경우 최종 전사를 기다리는 것이 정확도 면에서 의미 있다.
가격 범위
스트리밍 STT 가격은 $2~$17/1,000분 수준으로 넓게 분포한다. 최저가(Soniox $2)와 최고 정확도(ElevenLabs 3.6%)의 트레이드오프가 크다.
누가, 어떤 경우에 쓰면 좋을까
- 음성 AI 에이전트 개발팀: 실시간 대화 응용에서 STT 모델 선택 시 이 벤치마크를 기준으로 정확도-지연-가격을 비교할 수 있다.
- 저지연 트랜스크립션이 핵심인 서비스: ElevenLabs (0.14s)나 Cartesia가 좋은 출발점이다.
- 비용 최우선 시나리오: Soniox의 $2 가격은 정확도를 일부 희생하지만 대량 처리에 유리하다.
참고 자료
- AA-WER Streaming: New Speech to Text Streaming Benchmark — Artificial Analysis (2026-06-02)
- 전체 결과
- 방법론