Voicebox는 ElevenLabs식 음성 출력과 WisprFlow식 음성 입력을 한 앱에 묶은 로컬 우선 오픈소스 AI 음성 스튜디오다. 짧은 샘플로 음성을 복제하고, 여러 TTS 엔진으로 긴 스크립트를 생성하며, 전역 단축키로 받아쓰고, MCP-aware 에이전트가 음성으로 말하게 할 수 있다.
주요 기능
| 영역 | 기능 |
|---|---|
| 음성 생성 | Qwen3-TTS, LuxTTS, Chatterbox, TADA, Kokoro 등 7개 TTS 엔진 |
| 음성 복제 | 참조 오디오 기반 zero-shot cloning과 preset voice |
| 긴 생성 | 문장 단위 자동 청킹과 crossfade로 긴 글 생성 |
| 음성 입력 | 전역 dictation hotkey, Whisper STT, macOS 자동 붙여넣기 |
| 편집 | 후처리 효과, generation version, stories timeline |
| 에이전트 연동 | REST API와 내장 MCP 서버로 voicebox.speak 호출 |
에이전트 음성 출력
Voicebox의 흥미로운 지점은 에이전트에게 목소리를 붙이는 기능이다. Claude Code, Cursor, Cline 같은 MCP 클라이언트가 voicebox.speak를 호출하면 작업 완료, 질문, 알림을 복제된 목소리로 말할 수 있다.
await voicebox.speak({
text: "배포가 끝났다.",
profile: "Morgan",
});HTTP만 쓰는 앱도 POST /speak로 같은 기능을 호출할 수 있다. 에이전트별 기본 음성을 매핑하면 화면을 보지 않고도 어떤 에이전트가 말하는지 구분할 수 있다.
로컬 우선의 의미
README는 모델, 음성 데이터, 캡처가 로컬에 남는 구조를 강조한다. 음성 복제와 받아쓰기는 개인정보와 생체 데이터에 민감하므로, 클라우드 API보다 로컬 실행이 중요한 사용자가 있다. macOS Apple Silicon은 MLX/Metal, NVIDIA는 CUDA, AMD는 ROCm, Windows는 DirectML을 지원한다.
언제 유용한가
개발 루프 중 음성 알림을 받고 싶은 에이전트 사용자, 로컬에서 긴 음성 콘텐츠를 만들고 싶은 크리에이터, 게임·내러티브 도구에서 캐릭터 음성을 실험하는 팀, 클라우드 음성 API에 민감한 조직에 맞다.
관련 문서
- mcp — 에이전트와 외부 도구를 연결하는 프로토콜
- local-voice-assistant-tutorial-platypush — 로컬 음성 어시스턴트 구성
- moss-tts — 오픈소스 TTS 모델 패밀리
- sglang-omni — 음성 출력 LLM 서빙 프레임워크
참고 자료
- jamiepine/voicebox — GitHub 공식 저장소