Supertonic은 Supertone이 공개한 온디바이스 텍스트 음성 변환(TTS, Text-to-Speech) 시스템이다. 99M 파라미터급 공개 가중치 모델을 ONNX Runtime으로 실행해 서버 API 없이 로컬 장치, 브라우저, 모바일, 엣지 디바이스에서 다국어 음성을 합성한다. GitHub ★7.7K, 코드 라이선스는 MIT, 모델 가중치는 OpenRAIL-M이다.

무엇이 다른가
Supertonic은 “가장 강력한 TTS”보다 “배포하기 쉬운 로컬 TTS”에 초점을 둔다. 클라우드 API 호출 없이 동작하므로 개인정보가 장치 밖으로 나가지 않고, 네트워크가 불안정한 환경에서도 음성 합성이 가능하다.
| 구분 | Supertonic 3 |
|---|---|
| 모델 크기 | 약 99M 파라미터 |
| 실행 방식 | ONNX Runtime, onnxruntime-web(WebGPU/WASM) |
| 언어 | 31개 언어 |
| 오디오 출력 | 44.1kHz 16-bit WAV |
| 배포 대상 | 데스크톱, 브라우저, 모바일, Raspberry Pi, e-reader |
| 코드 라이선스 | MIT |
| 모델 라이선스 | OpenRAIL-M |
핵심 기능
31개 언어와 언어 미지정 모드
영어, 한국어, 일본어, 독일어, 프랑스어, 스페인어, 힌디어 등 31개 언어를 지원한다. 입력 언어를 모를 때는 lang="na"로 설정해 언어 비의존 방식으로 처리할 수 있다.
온디바이스 실행
Supertonic 3는 GPU가 없어도 CPU에서 실행 가능하도록 설계됐다. README 기준 Raspberry Pi, e-reader, Chrome 확장 데모가 제공되며, 브라우저에서는 WebGPU 기반 실행도 가능하다. 개인정보 보호가 중요한 읽기 도구, 교육 앱, 로컬 보조기기, 오프라인 음성 인터페이스에 적합하다.
표현 태그와 자연 텍스트 처리
<laugh>, <breath>, <sigh> 같은 10개 인라인 표현 태그로 웃음, 숨소리, 한숨 같은 발화 뉘앙스를 조절할 수 있다. 또한 금액, 전화번호, 기술 단위처럼 일반 TTS가 자주 틀리는 텍스트 정규화 케이스를 별도 전처리 없이 읽는 데 초점을 둔다.
빠른 시작
Python SDK를 쓰면 첫 실행 시 Hugging Face에서 모델을 자동 다운로드한다.
pip install supertonicfrom supertonic import TTS
tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")
wav, duration = tts.synthesize(
text="Supertonic is a lightning fast, on-device TTS system.",
lang="en",
voice_style=style,
total_steps=8,
speed=1.05,
)
tts.save_audio(wav, "output.wav")저장소 예제는 Python 외에도 Node.js, Browser, Java, C++, C#, Go, Swift, iOS, Rust, Flutter를 제공한다.
Supertonic 3 업데이트
2026년 4월 공개된 Supertonic 3는 Supertonic 2 대비 언어 지원을 5개에서 31개로 늘리고, 반복·누락 실패를 줄였으며, v2와 호환되는 공개 ONNX 인터페이스를 유지한다. 2026년 5월 18일에는 Voice Builder가 Supertonic 3 JSON 프로필 생성을 지원하기 시작했다.
누가 쓰면 좋은가
- 브라우저·모바일 앱 개발자: 서버 TTS 비용 없이 클라이언트에서 음성 읽기 기능을 넣고 싶을 때
- 개인정보 민감 서비스: 의료, 교육, 기업 내부 문서처럼 텍스트를 외부 API로 보내기 어려울 때
- 엣지 디바이스 개발자: Raspberry Pi, e-reader, 키오스크 등 제한된 장치에서 다국어 TTS가 필요할 때
- 오픈소스 음성 AI 연구자: ONNX 기반 공개 가중치 TTS를 여러 런타임에서 비교하고 싶을 때
한계와 유의사항
이 저장소 자체는 고정 음성 로컬 TTS에 초점을 두며, 공식 음성 클로닝 파이프라인은 포함하지 않는다. 커스텀 음성은 별도 Voice Builder 서비스를 통해 JSON 프로필을 만드는 방식이다. 또한 모델 가중치는 OpenRAIL-M이므로 상업적·공개 서비스 적용 전 라이선스 조건을 확인해야 한다.
관련 문서
- omnivoice — 600개+ 언어 지원 제로샷 TTS
- voxcpm2 — ElevenLabs 대안 오픈소스 다국어 TTS
- vibevoice — Microsoft의 오픈소스 음성 AI 패밀리
- transformersjs — 브라우저·Node.js에서 Hugging Face 모델 실행
참고 자료
- supertone-inc/supertonic — GitHub 공식 저장소
- Supertone/supertonic-3 — Hugging Face 모델