OmniVoice – 600개 이상 언어를 지원하는 오픈소스 제로샷 TTS 모델

주요 특징
설치
빠른 시작
경쟁 TTS와 비교
아키텍처
라이선스
관련 문서

OmniVoice는 600개 이상의 언어에서 제로샷 음성 클로닝과 음성 디자인을 지원하는 오픈소스 다국어 TTS(Text-to-Speech) 모델이다. 확산 언어 모델(Diffusion Language Model) 구조를 채택해 고품질 음성 생성과 실시간 대비 40배 빠른 추론 속도(RTF 0.025)를 동시에 달성했다. k2-fsa 팀이 개발했으며 arXiv 논문(2604.00688)도 공개되어 있다.

주요 특징

기능	내용
600+ 언어 지원	제로샷 TTS 모델 중 가장 넓은 언어 커버리지
음성 클로닝	짧은 참조 오디오로 화자 음성 복제
음성 디자인	성별, 나이, 음높이, 방언/액센트, 속삭임 등 속성 지정
세밀한 제어	`[laughter]` 같은 비언어 기호, 발음 교정 (한자 병음, 음소)
빠른 추론	RTF 0.025 — 실시간 대비 40배 빠름

설치

# pip (안정 버전)
pip install omnivoice

# 최신 소스
pip install git+https://github.com/k2-fsa/OmniVoice.git

PyTorch 설치가 필요하다. NVIDIA GPU 사용 시:

pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 \
  --extra-index-url https://download.pytorch.org/whl/cu128

빠른 시작

코드 없이 웹 UI로 먼저 체험:

omnivoice-demo --ip 0.0.0.0 --port 8001

또는 HuggingFace Space에서 바로 테스트 가능하다.

경쟁 TTS와 비교

모델	언어 수	음성 클로닝	음성 디자인	오픈소스
OmniVoice	600+	✅	✅	✅
gemini-3-1-flash-tts	다국어	제한적	✅ (프롬프트)	❌
ElevenLabs	~50	✅	✅	❌
voxcpm2	다국어	✅	제한적	✅
OpenAI TTS	다국어	제한적	❌	❌

아키텍처

OmniVoice는 확산 언어 모델 스타일의 구조를 채택했다. 이 설계는 자기회귀 모델 대비 병렬 생성이 가능해 속도가 빠르면서도 음질이 높다. 세부 내용은 arXiv 논문 2604.00688에서 확인할 수 있다.

라이선스

Apache 2.0

AI Sparkup