AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Fun-Realtime-TTS – Artificial Analysis 리더보드 1위에 오른 알리바바 실시간 TTS 모델

2026-06-05

목차

리더보드 순위
주요 기능
가격 비교
어떤 케이스에 유용한가
참고 자료

Fun-Realtime-TTS는 알리바바 클라우드가 공개한 실시간 텍스트 음성 변환(TTS) 모델이다. 2026년 6월 기준 Artificial Analysis Speech Arena 리더보드에서 Elo 1219로 1위를 기록하며, Google의 Gemini 3.1 Flash TTS와 Inworld의 Realtime TTS-2 Research Preview를 제쳤다.

리더보드 순위

순위	모델	Elo 점수
1위	Fun-Realtime-TTS	1,219
2위	Gemini 3.1 Flash TTS	1,214
3위	Inworld Realtime TTS-2 Research Preview	1,209
4위	Cartesia Sonic 3.5	1,203

상위 5개 모델 간 Elo 점수 차이가 24점에 불과할 만큼 경쟁이 치열하다. Fun-Realtime-TTS는 962번의 아레나 출전을 기반으로 1위를 확정했다. 알리바바의 이전 모델 Fun-Realtime-TTS-Preview는 동 리더보드 7위였으며, 이번이 알리바바 최초의 1위다.

주요 기능

실시간 음성 생성: 지연 없는 스트리밍 TTS
음성 복제(Voice Cloning): 기존 음성 샘플을 바탕으로 동일한 화자 특성 재현
음성 디자인(Voice Design): 목소리 특성을 커스텀 설계
다국어 지원: 복수 언어 및 지역 방언·억양 지원
알리바바 클라우드 API: 개발자용 API로 서비스 통합 가능

가격 비교

모델	가격(1M자 기준)
Gemini 3.1 Flash TTS	$18.3
Fun-Realtime-TTS	$27.59
Inworld Realtime TTS 1.5 Max	$35
Cartesia Sonic 3.5	$39
Inworld Realtime TTS-2 Research Preview	$35

품질 1위를 달성하면서도 Sonic 3.5나 Inworld보다 낮은 가격대를 유지한다.

어떤 케이스에 유용한가

음성 에이전트·AI 어시스턴트에 고품질 실시간 TTS가 필요한 개발자
다국어 콘텐츠 제작 시 품질·속도·가격 균형이 중요한 경우
음성 복제 기능을 활용해 일관된 브랜드 보이스를 구현하려는 팀

참고 자료

Fun-Realtime-TTS: New Text to Speech model topping Artificial Analysis leaderboard — Artificial Analysis (2026-06-03)

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)