VibeVoice – Microsoft의 오픈소스 프론티어 음성 AI 패밀리 (TTS·ASR·스트리밍)

핵심 기술
모델 구성
VibeVoice-ASR — 60분 단일 패스 음성 인식
VibeVoice-TTS — 90분 장편 다화자 TTS
VibeVoice-Realtime — 실시간 스트리밍 TTS
누가 쓰면 좋은가
설치
라이선스 및 유의사항
관련 문서
macOS에서 빠르게 시작하기 (mlx-audio)
참고 자료

VibeVoice는 Microsoft가 공개한 오픈소스 음성 AI 패밀리로, 텍스트-음성 변환(TTS), 자동 음성 인식(ASR), 실시간 스트리밍 TTS 세 모델로 구성된다. 기존 음성 모델이 짧은 청크 단위로 처리하는 한계를 극복하고, 90분 장편 TTS·60분 단일 패스 ASR을 지원한다. HuggingFace Transformers와 vLLM을 통해 직접 활용할 수 있다.

핵심 기술

VibeVoice의 차별화된 기술 기반은 두 가지다.

연속 음성 토크나이저(7.5 Hz): 음향(Acoustic)·의미(Semantic) 토크나이저가 초당 7.5 프레임이라는 초저 프레임 레이트로 동작한다. 오디오 품질을 유지하면서도 긴 시퀀스 처리에 필요한 연산량을 대폭 줄인다.
Next-token diffusion 프레임워크: LLM이 텍스트 맥락과 대화 흐름을 이해하고, 확산 헤드(diffusion head)가 고품질 음향 세부 사항을 생성한다. LLM의 언어 이해력과 확산 모델의 표현력을 결합한 구조다.

모델 구성

모델	파라미터	용도	주요 특징
VibeVoice-ASR	7B	장편 음성 인식	60분 단일 패스, 50개+ 언어, 화자 분리
VibeVoice-TTS	1.5B	장편 다화자 TTS	90분 생성, 4명 화자, ICLR 2026 Oral
VibeVoice-Realtime	0.5B	실시간 스트리밍 TTS	300ms 초성 지연, 스트리밍 텍스트 입력

VibeVoice-ASR — 60분 단일 패스 음성 인식

VibeVoice-ASR은 최대 60분 분량의 음성을 한 번에 처리해 구조화된 전사(transcription)를 생성한다. 기존 ASR 모델처럼 짧은 청크로 자르지 않으므로 전체 오디오에 걸쳐 화자 일관성과 의미적 연속성이 유지된다.

Who·When·What 구조화 출력: ASR·화자 분리(diarization)·타임스탬프를 동시에 수행. 누가 언제 무슨 말을 했는지 한 번에 추출한다.
커스텀 핫워드: 도메인 특화 용어나 인물명을 사전 제공해 인식 정확도를 높일 수 있다.
50개+ 언어 지원: 네이티브 다국어 지원으로 글로벌 환경에서도 사용 가능하다.
vLLM 추론 지원: vLLM 백엔드를 통해 더 빠른 배치 추론을 구현할 수 있다.

# HuggingFace Transformers로 직접 사용
from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="microsoft/VibeVoice-ASR")
result = pipe("audio.wav")

VibeVoice-TTS — 90분 장편 다화자 TTS

VibeVoice-TTS(1.5B)는 최대 90분 분량의 대화형 음성을 단일 패스로 생성하며 ICLR 2026에서 Oral 발표로 채택됐다. 최대 4명의 화자가 자연스럽게 대화를 주고받는 구조를 지원한다. 단, TTS 코드는 2025년 9월 악용 사례 발견 이후 저장소에서 삭제돼 현재 다운로드가 불가능하다.

VibeVoice-Realtime — 실시간 스트리밍 TTS

VibeVoice-Realtime(0.5B)은 배포 친화적인 경량 모델로 스트리밍 텍스트 입력을 받아 약 300ms 초성 지연으로 음성을 출력한다. 약 10분 분량의 장편 생성도 안정적으로 처리한다. 영어 외에 독일어·프랑스어·일본어·한국어 등 9개 언어의 실험적 목소리와 11가지 영어 스타일 목소리를 지원한다.

# Colab에서 바로 체험
# https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/VibeVoice_colab.ipynb

누가 쓰면 좋은가

사용자	사용 사례
팟캐스트·미디어 제작자	긴 대화형 콘텐츠를 다화자 TTS로 자동 제작
회의·강의 전사 담당자	60분 회의 녹취를 단일 패스로 화자별 분리·전사
ML 연구자	next-token diffusion 기반 음성 모델 연구 기반으로 활용
앱 개발자	HuggingFace Transformers로 ASR 기능 빠르게 통합

설치

pip install transformers
# ASR 모델: microsoft/VibeVoice-ASR
# Realtime TTS: microsoft/VibeVoice-Realtime-0.5B

라이선스 및 유의사항

VibeVoice-ASR과 Realtime은 오픈소스로 공개돼 있다. TTS 코드는 딥페이크·허위 정보 생성 등 악용 사례가 확인된 후 저장소에서 제거됐으며, 현재 가중치만 HuggingFace를 통해 접근 가능하다. 생성된 음성 콘텐츠에 AI 사용 여부를 명시하는 것이 권장 사항이다.

macOS에서 빠르게 시작하기 (mlx-audio)

Apple Silicon Mac에서는 uv와 mlx-audio를 사용해 VibeVoice-ASR을 로컬로 실행할 수 있다. 4비트 양자화 모델(5.71GB)을 활용해 메모리를 줄인다.

uv run --with mlx-audio mlx_audio.stt.generate \
  --model mlx-community/VibeVoice-ASR-4bit \
  --audio audio.mp3 --output-path output \
  --format json --verbose --max-tokens 32768

참고 사항:

--max-tokens 기본값은 8192 (약 25분 분량). 60분 전체를 처리하려면 32768 이상 설정 필요
M5 Max 128GB 기준: 60분 오디오 처리에 약 8분 45초 소요
Activity Monitor 기준 피크 메모리: 약 61.5GB (프리필 단계) → 생성 단계는 약 18GB

출력 JSON 구조 (speaker_id로 화자 구분):

{
  "text": "...",
  "start": 13.85,
  "end": 19.5,
  "duration": 5.65,
  "speaker_id": 0
}

60분 초과 오디오는 1분 정도 오버랩을 두고 분할해 처리하고, 분할된 세그먼트 간 speaker_id를 수동으로 정렬해야 한다.

참고 자료

microsoft/VibeVoice — GitHub 공식 저장소
microsoft/VibeVoice — Simon Willison — simonwillison.net (2026-04-27)

Like?

AI Sparkup