Voicebox – 로컬 우선 오픈소스 AI 음성 스튜디오

주요 기능
에이전트 음성 출력
로컬 우선의 의미
언제 유용한가
관련 문서
참고 자료

Voicebox는 ElevenLabs식 음성 출력과 WisprFlow식 음성 입력을 한 앱에 묶은 로컬 우선 오픈소스 AI 음성 스튜디오다. 짧은 샘플로 음성을 복제하고, 여러 TTS 엔진으로 긴 스크립트를 생성하며, 전역 단축키로 받아쓰고, MCP-aware 에이전트가 음성으로 말하게 할 수 있다.

주요 기능

영역	기능
음성 생성	Qwen3-TTS, LuxTTS, Chatterbox, TADA, Kokoro 등 7개 TTS 엔진
음성 복제	참조 오디오 기반 zero-shot cloning과 preset voice
긴 생성	문장 단위 자동 청킹과 crossfade로 긴 글 생성
음성 입력	전역 dictation hotkey, Whisper STT, macOS 자동 붙여넣기
편집	후처리 효과, generation version, stories timeline
에이전트 연동	REST API와 내장 MCP 서버로 `voicebox.speak` 호출

에이전트 음성 출력

Voicebox의 흥미로운 지점은 에이전트에게 목소리를 붙이는 기능이다. Claude Code, Cursor, Cline 같은 MCP 클라이언트가 voicebox.speak를 호출하면 작업 완료, 질문, 알림을 복제된 목소리로 말할 수 있다.

await voicebox.speak({
  text: "배포가 끝났다.",
  profile: "Morgan",
});

HTTP만 쓰는 앱도 POST /speak로 같은 기능을 호출할 수 있다. 에이전트별 기본 음성을 매핑하면 화면을 보지 않고도 어떤 에이전트가 말하는지 구분할 수 있다.

로컬 우선의 의미

README는 모델, 음성 데이터, 캡처가 로컬에 남는 구조를 강조한다. 음성 복제와 받아쓰기는 개인정보와 생체 데이터에 민감하므로, 클라우드 API보다 로컬 실행이 중요한 사용자가 있다. macOS Apple Silicon은 MLX/Metal, NVIDIA는 CUDA, AMD는 ROCm, Windows는 DirectML을 지원한다.

언제 유용한가

개발 루프 중 음성 알림을 받고 싶은 에이전트 사용자, 로컬에서 긴 음성 콘텐츠를 만들고 싶은 크리에이터, 게임·내러티브 도구에서 캐릭터 음성을 실험하는 팀, 클라우드 음성 API에 민감한 조직에 맞다.

참고 자료

jamiepine/voicebox — GitHub 공식 저장소

Like?

AI Sparkup