Fun-Realtime-TTS는 알리바바 클라우드가 공개한 실시간 텍스트 음성 변환(TTS) 모델이다. 2026년 6월 기준 Artificial Analysis Speech Arena 리더보드에서 Elo 1219로 1위를 기록하며, Google의 Gemini 3.1 Flash TTS와 Inworld의 Realtime TTS-2 Research Preview를 제쳤다.
리더보드 순위
| 순위 | 모델 | Elo 점수 |
|---|---|---|
| 1위 | Fun-Realtime-TTS | 1,219 |
| 2위 | Gemini 3.1 Flash TTS | 1,214 |
| 3위 | Inworld Realtime TTS-2 Research Preview | 1,209 |
| 4위 | Cartesia Sonic 3.5 | 1,203 |
상위 5개 모델 간 Elo 점수 차이가 24점에 불과할 만큼 경쟁이 치열하다. Fun-Realtime-TTS는 962번의 아레나 출전을 기반으로 1위를 확정했다. 알리바바의 이전 모델 Fun-Realtime-TTS-Preview는 동 리더보드 7위였으며, 이번이 알리바바 최초의 1위다.
주요 기능
- 실시간 음성 생성: 지연 없는 스트리밍 TTS
- 음성 복제(Voice Cloning): 기존 음성 샘플을 바탕으로 동일한 화자 특성 재현
- 음성 디자인(Voice Design): 목소리 특성을 커스텀 설계
- 다국어 지원: 복수 언어 및 지역 방언·억양 지원
- 알리바바 클라우드 API: 개발자용 API로 서비스 통합 가능
가격 비교
| 모델 | 가격(1M자 기준) |
|---|---|
| Gemini 3.1 Flash TTS | $18.3 |
| Fun-Realtime-TTS | $27.59 |
| Inworld Realtime TTS 1.5 Max | $35 |
| Cartesia Sonic 3.5 | $39 |
| Inworld Realtime TTS-2 Research Preview | $35 |
품질 1위를 달성하면서도 Sonic 3.5나 Inworld보다 낮은 가격대를 유지한다.
어떤 케이스에 유용한가
- 음성 에이전트·AI 어시스턴트에 고품질 실시간 TTS가 필요한 개발자
- 다국어 콘텐츠 제작 시 품질·속도·가격 균형이 중요한 경우
- 음성 복제 기능을 활용해 일관된 브랜드 보이스를 구현하려는 팀
참고 자료
- Fun-Realtime-TTS: New Text to Speech model topping Artificial Analysis leaderboard — Artificial Analysis (2026-06-03)