AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Supertonic – 온디바이스 다국어 TTS를 위한 99M 오픈 가중치 모델

Supertonic은 Supertone이 공개한 온디바이스 텍스트 음성 변환(TTS, Text-to-Speech) 시스템이다. 99M 파라미터급 공개 가중치 모델을 ONNX Runtime으로 실행해 서버 API 없이 로컬 장치, 브라우저, 모바일, 엣지 디바이스에서 다국어 음성을 합성한다. GitHub ★7.7K, 코드 라이선스는 MIT, 모델 가중치는 OpenRAIL-M이다.

Supertonic 3 배너
출처: Supertone 공식 GitHub 저장소

무엇이 다른가

Supertonic은 “가장 강력한 TTS”보다 “배포하기 쉬운 로컬 TTS”에 초점을 둔다. 클라우드 API 호출 없이 동작하므로 개인정보가 장치 밖으로 나가지 않고, 네트워크가 불안정한 환경에서도 음성 합성이 가능하다.

구분Supertonic 3
모델 크기약 99M 파라미터
실행 방식ONNX Runtime, onnxruntime-web(WebGPU/WASM)
언어31개 언어
오디오 출력44.1kHz 16-bit WAV
배포 대상데스크톱, 브라우저, 모바일, Raspberry Pi, e-reader
코드 라이선스MIT
모델 라이선스OpenRAIL-M

핵심 기능

31개 언어와 언어 미지정 모드

영어, 한국어, 일본어, 독일어, 프랑스어, 스페인어, 힌디어 등 31개 언어를 지원한다. 입력 언어를 모를 때는 lang="na"로 설정해 언어 비의존 방식으로 처리할 수 있다.

온디바이스 실행

Supertonic 3는 GPU가 없어도 CPU에서 실행 가능하도록 설계됐다. README 기준 Raspberry Pi, e-reader, Chrome 확장 데모가 제공되며, 브라우저에서는 WebGPU 기반 실행도 가능하다. 개인정보 보호가 중요한 읽기 도구, 교육 앱, 로컬 보조기기, 오프라인 음성 인터페이스에 적합하다.

표현 태그와 자연 텍스트 처리

<laugh>, <breath>, <sigh> 같은 10개 인라인 표현 태그로 웃음, 숨소리, 한숨 같은 발화 뉘앙스를 조절할 수 있다. 또한 금액, 전화번호, 기술 단위처럼 일반 TTS가 자주 틀리는 텍스트 정규화 케이스를 별도 전처리 없이 읽는 데 초점을 둔다.

빠른 시작

Python SDK를 쓰면 첫 실행 시 Hugging Face에서 모델을 자동 다운로드한다.

pip install supertonic
from supertonic import TTS

tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")

wav, duration = tts.synthesize(
    text="Supertonic is a lightning fast, on-device TTS system.",
    lang="en",
    voice_style=style,
    total_steps=8,
    speed=1.05,
)

tts.save_audio(wav, "output.wav")

저장소 예제는 Python 외에도 Node.js, Browser, Java, C++, C#, Go, Swift, iOS, Rust, Flutter를 제공한다.

Supertonic 3 업데이트

2026년 4월 공개된 Supertonic 3는 Supertonic 2 대비 언어 지원을 5개에서 31개로 늘리고, 반복·누락 실패를 줄였으며, v2와 호환되는 공개 ONNX 인터페이스를 유지한다. 2026년 5월 18일에는 Voice Builder가 Supertonic 3 JSON 프로필 생성을 지원하기 시작했다.

누가 쓰면 좋은가

  • 브라우저·모바일 앱 개발자: 서버 TTS 비용 없이 클라이언트에서 음성 읽기 기능을 넣고 싶을 때
  • 개인정보 민감 서비스: 의료, 교육, 기업 내부 문서처럼 텍스트를 외부 API로 보내기 어려울 때
  • 엣지 디바이스 개발자: Raspberry Pi, e-reader, 키오스크 등 제한된 장치에서 다국어 TTS가 필요할 때
  • 오픈소스 음성 AI 연구자: ONNX 기반 공개 가중치 TTS를 여러 런타임에서 비교하고 싶을 때

한계와 유의사항

이 저장소 자체는 고정 음성 로컬 TTS에 초점을 두며, 공식 음성 클로닝 파이프라인은 포함하지 않는다. 커스텀 음성은 별도 Voice Builder 서비스를 통해 JSON 프로필을 만드는 방식이다. 또한 모델 가중치는 OpenRAIL-M이므로 상업적·공개 서비스 적용 전 라이선스 조건을 확인해야 한다.

관련 문서

  • omnivoice — 600개+ 언어 지원 제로샷 TTS
  • voxcpm2 — ElevenLabs 대안 오픈소스 다국어 TTS
  • vibevoice — Microsoft의 오픈소스 음성 AI 패밀리
  • transformersjs — 브라우저·Node.js에서 Hugging Face 모델 실행

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)