SGLang Omni는 SGLang 기반의 옴니모달·TTS 모델 서빙 프레임워크다. 음성 출력 LLM은 보통 thinker, talker, codec, vocoder처럼 계산 특성이 다른 단계로 나뉘는데, SGLang Omni는 이 단계를 프로세스와 GPU에 나눠 배치하는 파이프라인을 제공한다.
핵심 기능
- preprocessing, AR engine, codec, vocoder를 나누는 multi-stage pipeline
- OpenAI-compatible API
- Higgs Audio, Fish Audio S2-Pro, Voxtral TTS, Qwen3 TTS, MOSS-TTS, Qwen3-Omni, Ming-Omni 등 모델 지원
- 단계별 병목이 다른 음성·멀티모달 모델을 낮은 지연시간으로 오케스트레이션
왜 필요한가
텍스트 LLM 서빙은 주로 KV cache와 디코딩 throughput을 최적화한다. 반면 음성 출력 모델은 텍스트 추론, 음향 토큰 생성, codec, vocoder가 서로 다른 자원 병목을 가진다. 한 프로세스에서 뭉뚱그려 실행하면 compute-bound 단계와 memory-bound 단계가 서로 발목을 잡기 쉽다.
관련 문서
- moss-tts — 고표현력 음성·사운드 생성을 위한 오픈소스 TTS 모델 패밀리
- vllm — LLM 서빙을 위한 고성능 추론 엔진
- local-voice-assistant-tutorial-platypush — 로컬 음성 비서 파이프라인
참고 자료
- sgl-project/sglang-omni — GitHub 공식 저장소