OmniVoice는 600개 이상의 언어에서 제로샷 음성 클로닝과 음성 디자인을 지원하는 오픈소스 다국어 TTS(Text-to-Speech) 모델이다. 확산 언어 모델(Diffusion Language Model) 구조를 채택해 고품질 음성 생성과 실시간 대비 40배 빠른 추론 속도(RTF 0.025)를 동시에 달성했다. k2-fsa 팀이 개발했으며 arXiv 논문(2604.00688)도 공개되어 있다.
주요 특징
| 기능 | 내용 |
|---|---|
| 600+ 언어 지원 | 제로샷 TTS 모델 중 가장 넓은 언어 커버리지 |
| 음성 클로닝 | 짧은 참조 오디오로 화자 음성 복제 |
| 음성 디자인 | 성별, 나이, 음높이, 방언/액센트, 속삭임 등 속성 지정 |
| 세밀한 제어 | [laughter] 같은 비언어 기호, 발음 교정 (한자 병음, 음소) |
| 빠른 추론 | RTF 0.025 — 실시간 대비 40배 빠름 |
설치
# pip (안정 버전)
pip install omnivoice
# 최신 소스
pip install git+https://github.com/k2-fsa/OmniVoice.gitPyTorch 설치가 필요하다. NVIDIA GPU 사용 시:
pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 \
--extra-index-url https://download.pytorch.org/whl/cu128빠른 시작
코드 없이 웹 UI로 먼저 체험:
omnivoice-demo --ip 0.0.0.0 --port 8001또는 HuggingFace Space에서 바로 테스트 가능하다.
경쟁 TTS와 비교
| 모델 | 언어 수 | 음성 클로닝 | 음성 디자인 | 오픈소스 |
|---|---|---|---|---|
| OmniVoice | 600+ | ✅ | ✅ | ✅ |
| gemini-31-flash-tts | 다국어 | 제한적 | ✅ (프롬프트) | ❌ |
| ElevenLabs | ~50 | ✅ | ✅ | ❌ |
| voxcpm2 | 다국어 | ✅ | 제한적 | ✅ |
| OpenAI TTS | 다국어 | 제한적 | ❌ | ❌ |
아키텍처
OmniVoice는 확산 언어 모델 스타일의 구조를 채택했다. 이 설계는 자기회귀 모델 대비 병렬 생성이 가능해 속도가 빠르면서도 음질이 높다. 세부 내용은 arXiv 논문 2604.00688에서 확인할 수 있다.
라이선스
Apache 2.0
관련 문서
- gemini-31-flash-tts — 감정·씬 연출이 가능한 Google TTS 모델
- gemini-31-flash-tts-tutorial-voice-app — Gemini TTS로 AI 음성 앱 만들기 튜토리얼
- voxcpm2 — ElevenLabs 대안 오픈소스 다국어 TTS