AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Fun-Realtime-TTS – Artificial Analysis 리더보드 1위에 오른 알리바바 실시간 TTS 모델

Fun-Realtime-TTS는 알리바바 클라우드가 공개한 실시간 텍스트 음성 변환(TTS) 모델이다. 2026년 6월 기준 Artificial Analysis Speech Arena 리더보드에서 Elo 1219로 1위를 기록하며, Google의 Gemini 3.1 Flash TTS와 Inworld의 Realtime TTS-2 Research Preview를 제쳤다.

리더보드 순위

순위모델Elo 점수
1위Fun-Realtime-TTS1,219
2위Gemini 3.1 Flash TTS1,214
3위Inworld Realtime TTS-2 Research Preview1,209
4위Cartesia Sonic 3.51,203

상위 5개 모델 간 Elo 점수 차이가 24점에 불과할 만큼 경쟁이 치열하다. Fun-Realtime-TTS는 962번의 아레나 출전을 기반으로 1위를 확정했다. 알리바바의 이전 모델 Fun-Realtime-TTS-Preview는 동 리더보드 7위였으며, 이번이 알리바바 최초의 1위다.

주요 기능

  • 실시간 음성 생성: 지연 없는 스트리밍 TTS
  • 음성 복제(Voice Cloning): 기존 음성 샘플을 바탕으로 동일한 화자 특성 재현
  • 음성 디자인(Voice Design): 목소리 특성을 커스텀 설계
  • 다국어 지원: 복수 언어 및 지역 방언·억양 지원
  • 알리바바 클라우드 API: 개발자용 API로 서비스 통합 가능

가격 비교

모델가격(1M자 기준)
Gemini 3.1 Flash TTS$18.3
Fun-Realtime-TTS$27.59
Inworld Realtime TTS 1.5 Max$35
Cartesia Sonic 3.5$39
Inworld Realtime TTS-2 Research Preview$35

품질 1위를 달성하면서도 Sonic 3.5나 Inworld보다 낮은 가격대를 유지한다.

어떤 케이스에 유용한가

  • 음성 에이전트·AI 어시스턴트에 고품질 실시간 TTS가 필요한 개발자
  • 다국어 콘텐츠 제작 시 품질·속도·가격 균형이 중요한 경우
  • 음성 복제 기능을 활용해 일관된 브랜드 보이스를 구현하려는 팀

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)