MOSS-TTS는 MOSI.AI와 OpenMOSS 팀이 공개한 오픈소스 speech and sound generation 모델 패밀리다. 장문 음성, 다중 화자 대화, voice design, 환경 sound effect, 실시간 streaming TTS까지 폭넓은 음성 생성 시나리오를 겨냥한다.
모델 패밀리
MOSS-TTS-v1.5는 다국어 합성, 안정적인 voice cloning, punctuation 제어를 강화한 계열이다. MOSS-TTS-Local-Transformer-v1.5는 4B MossTTSLocal checkpoint로 로컬 실행을 겨냥한다. MOSS-TTS-Nano는 약 100M 파라미터로 CPU 4코어 환경에서도 streaming output을 목표로 한다.
사운드 효과용 MOSS-SoundEffect-v2.0도 별도로 공개되어, 텍스트 기반 음향 효과 생성까지 포함한다.
서빙 생태계
MOSS-TTS는 llama.cpp, mlx-audio, vLLM-Omni, sglang-omni 같은 다양한 백엔드 지원을 넓히고 있다. 특히 SGLang-Omni는 MOSS-TTS-Local-Transformer-v1.5를 early support하며 음성 출력 LLM의 멀티스테이지 파이프라인과 연결된다.
관련 문서
- sglang-omni — 음성 출력 LLM과 옴니모달 모델을 위한 멀티스테이지 서빙 프레임워크
- local-voice-assistant-tutorial-platypush — Platypush로 클라우드 없이 음성 명령 파이프라인 만들기
- whisper-cpp — 로컬 음성 인식 도구
참고 자료
- OpenMOSS/MOSS-TTS — GitHub 공식 저장소