AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

OmniVoice – 600개 이상 언어를 지원하는 오픈소스 제로샷 TTS 모델

OmniVoice는 600개 이상의 언어에서 제로샷 음성 클로닝과 음성 디자인을 지원하는 오픈소스 다국어 TTS(Text-to-Speech) 모델이다. 확산 언어 모델(Diffusion Language Model) 구조를 채택해 고품질 음성 생성과 실시간 대비 40배 빠른 추론 속도(RTF 0.025)를 동시에 달성했다. k2-fsa 팀이 개발했으며 arXiv 논문(2604.00688)도 공개되어 있다.

주요 특징

기능내용
600+ 언어 지원제로샷 TTS 모델 중 가장 넓은 언어 커버리지
음성 클로닝짧은 참조 오디오로 화자 음성 복제
음성 디자인성별, 나이, 음높이, 방언/액센트, 속삭임 등 속성 지정
세밀한 제어[laughter] 같은 비언어 기호, 발음 교정 (한자 병음, 음소)
빠른 추론RTF 0.025 — 실시간 대비 40배 빠름

설치

# pip (안정 버전)
pip install omnivoice

# 최신 소스
pip install git+https://github.com/k2-fsa/OmniVoice.git

PyTorch 설치가 필요하다. NVIDIA GPU 사용 시:

pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 \
  --extra-index-url https://download.pytorch.org/whl/cu128

빠른 시작

코드 없이 웹 UI로 먼저 체험:

omnivoice-demo --ip 0.0.0.0 --port 8001

또는 HuggingFace Space에서 바로 테스트 가능하다.

경쟁 TTS와 비교

모델언어 수음성 클로닝음성 디자인오픈소스
OmniVoice600+
gemini-31-flash-tts다국어제한적✅ (프롬프트)
ElevenLabs~50
voxcpm2다국어제한적
OpenAI TTS다국어제한적

아키텍처

OmniVoice는 확산 언어 모델 스타일의 구조를 채택했다. 이 설계는 자기회귀 모델 대비 병렬 생성이 가능해 속도가 빠르면서도 음질이 높다. 세부 내용은 arXiv 논문 2604.00688에서 확인할 수 있다.

라이선스

Apache 2.0

관련 문서


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)