AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Voicebox – 로컬 우선 오픈소스 AI 음성 스튜디오

Voicebox는 ElevenLabs식 음성 출력과 WisprFlow식 음성 입력을 한 앱에 묶은 로컬 우선 오픈소스 AI 음성 스튜디오다. 짧은 샘플로 음성을 복제하고, 여러 TTS 엔진으로 긴 스크립트를 생성하며, 전역 단축키로 받아쓰고, MCP-aware 에이전트가 음성으로 말하게 할 수 있다.

주요 기능

영역기능
음성 생성Qwen3-TTS, LuxTTS, Chatterbox, TADA, Kokoro 등 7개 TTS 엔진
음성 복제참조 오디오 기반 zero-shot cloning과 preset voice
긴 생성문장 단위 자동 청킹과 crossfade로 긴 글 생성
음성 입력전역 dictation hotkey, Whisper STT, macOS 자동 붙여넣기
편집후처리 효과, generation version, stories timeline
에이전트 연동REST API와 내장 MCP 서버로 voicebox.speak 호출

에이전트 음성 출력

Voicebox의 흥미로운 지점은 에이전트에게 목소리를 붙이는 기능이다. Claude Code, Cursor, Cline 같은 MCP 클라이언트가 voicebox.speak를 호출하면 작업 완료, 질문, 알림을 복제된 목소리로 말할 수 있다.

await voicebox.speak({
  text: "배포가 끝났다.",
  profile: "Morgan",
});

HTTP만 쓰는 앱도 POST /speak로 같은 기능을 호출할 수 있다. 에이전트별 기본 음성을 매핑하면 화면을 보지 않고도 어떤 에이전트가 말하는지 구분할 수 있다.

로컬 우선의 의미

README는 모델, 음성 데이터, 캡처가 로컬에 남는 구조를 강조한다. 음성 복제와 받아쓰기는 개인정보와 생체 데이터에 민감하므로, 클라우드 API보다 로컬 실행이 중요한 사용자가 있다. macOS Apple Silicon은 MLX/Metal, NVIDIA는 CUDA, AMD는 ROCm, Windows는 DirectML을 지원한다.

언제 유용한가

개발 루프 중 음성 알림을 받고 싶은 에이전트 사용자, 로컬에서 긴 음성 콘텐츠를 만들고 싶은 크리에이터, 게임·내러티브 도구에서 캐릭터 음성을 실험하는 팀, 클라우드 음성 API에 민감한 조직에 맞다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)