AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

VibeVoice – Microsoft의 오픈소스 프론티어 음성 AI 패밀리 (TTS·ASR·스트리밍)

VibeVoice는 Microsoft가 공개한 오픈소스 음성 AI 패밀리로, 텍스트-음성 변환(TTS), 자동 음성 인식(ASR), 실시간 스트리밍 TTS 세 모델로 구성된다. 기존 음성 모델이 짧은 청크 단위로 처리하는 한계를 극복하고, 90분 장편 TTS·60분 단일 패스 ASR을 지원한다. HuggingFace Transformers와 vLLM을 통해 직접 활용할 수 있다.

핵심 기술

VibeVoice의 차별화된 기술 기반은 두 가지다.

  • 연속 음성 토크나이저(7.5 Hz): 음향(Acoustic)·의미(Semantic) 토크나이저가 초당 7.5 프레임이라는 초저 프레임 레이트로 동작한다. 오디오 품질을 유지하면서도 긴 시퀀스 처리에 필요한 연산량을 대폭 줄인다.
  • Next-token diffusion 프레임워크: LLM이 텍스트 맥락과 대화 흐름을 이해하고, 확산 헤드(diffusion head)가 고품질 음향 세부 사항을 생성한다. LLM의 언어 이해력과 확산 모델의 표현력을 결합한 구조다.

모델 구성

모델파라미터용도주요 특징
VibeVoice-ASR7B장편 음성 인식60분 단일 패스, 50개+ 언어, 화자 분리
VibeVoice-TTS1.5B장편 다화자 TTS90분 생성, 4명 화자, ICLR 2026 Oral
VibeVoice-Realtime0.5B실시간 스트리밍 TTS300ms 초성 지연, 스트리밍 텍스트 입력

VibeVoice-ASR — 60분 단일 패스 음성 인식

VibeVoice-ASR은 최대 60분 분량의 음성을 한 번에 처리해 구조화된 전사(transcription)를 생성한다. 기존 ASR 모델처럼 짧은 청크로 자르지 않으므로 전체 오디오에 걸쳐 화자 일관성과 의미적 연속성이 유지된다.

  • Who·When·What 구조화 출력: ASR·화자 분리(diarization)·타임스탬프를 동시에 수행. 누가 언제 무슨 말을 했는지 한 번에 추출한다.
  • 커스텀 핫워드: 도메인 특화 용어나 인물명을 사전 제공해 인식 정확도를 높일 수 있다.
  • 50개+ 언어 지원: 네이티브 다국어 지원으로 글로벌 환경에서도 사용 가능하다.
  • vLLM 추론 지원: vLLM 백엔드를 통해 더 빠른 배치 추론을 구현할 수 있다.
# HuggingFace Transformers로 직접 사용
from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="microsoft/VibeVoice-ASR")
result = pipe("audio.wav")

VibeVoice-TTS — 90분 장편 다화자 TTS

VibeVoice-TTS(1.5B)는 최대 90분 분량의 대화형 음성을 단일 패스로 생성하며 ICLR 2026에서 Oral 발표로 채택됐다. 최대 4명의 화자가 자연스럽게 대화를 주고받는 구조를 지원한다. 단, TTS 코드는 2025년 9월 악용 사례 발견 이후 저장소에서 삭제돼 현재 다운로드가 불가능하다.

VibeVoice-Realtime — 실시간 스트리밍 TTS

VibeVoice-Realtime(0.5B)은 배포 친화적인 경량 모델로 스트리밍 텍스트 입력을 받아 약 300ms 초성 지연으로 음성을 출력한다. 약 10분 분량의 장편 생성도 안정적으로 처리한다. 영어 외에 독일어·프랑스어·일본어·한국어 등 9개 언어의 실험적 목소리와 11가지 영어 스타일 목소리를 지원한다.

# Colab에서 바로 체험
# https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/VibeVoice_colab.ipynb

누가 쓰면 좋은가

사용자사용 사례
팟캐스트·미디어 제작자긴 대화형 콘텐츠를 다화자 TTS로 자동 제작
회의·강의 전사 담당자60분 회의 녹취를 단일 패스로 화자별 분리·전사
ML 연구자next-token diffusion 기반 음성 모델 연구 기반으로 활용
앱 개발자HuggingFace Transformers로 ASR 기능 빠르게 통합

설치

pip install transformers
# ASR 모델: microsoft/VibeVoice-ASR
# Realtime TTS: microsoft/VibeVoice-Realtime-0.5B

라이선스 및 유의사항

VibeVoice-ASR과 Realtime은 오픈소스로 공개돼 있다. TTS 코드는 딥페이크·허위 정보 생성 등 악용 사례가 확인된 후 저장소에서 제거됐으며, 현재 가중치만 HuggingFace를 통해 접근 가능하다. 생성된 음성 콘텐츠에 AI 사용 여부를 명시하는 것이 권장 사항이다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)