Stable Audio 3.0은 Stability AI가 공개한 생성 오디오 모델 제품군이다. 4개 변형 중 3개는 오픈 웨이트로 제공되며, 최대 6분 20초 길이의 음악 생성, 세그먼트 편집, 기존 트랙 연장, LoRA 기반 파인튜닝을 지원한다.
모델 라인업
| 모델 | 파라미터 | 생성 길이 | 공개 방식 | 용도 |
|---|---|---|---|---|
| Stable Audio 3.0 Small SFX | 459M | 최대 2분 | 오픈 웨이트 | 효과음, 모바일·노트북 |
| Stable Audio 3.0 Small | 459M | 최대 2분 | 오픈 웨이트 | 짧은 음악, 온디바이스 작곡 |
| Stable Audio 3.0 Medium | 1.4B | 최대 6분 20초 | 오픈 웨이트 | 긴 음악 생성 |
| Stable Audio 3.0 Large | 2.7B | 미공개 | API·기업 호스팅 | 고음악성·대량 생성 플랫폼 |
Small 계열은 H200 GPU 기준 매우 짧은 추론 시간으로 소개됐고, Small 모델은 오프라인 온디바이스 음악 생성까지 겨냥한다. Large는 Hugging Face 오픈 웨이트가 아니라 Stability AI API, fal.ai, 엔터프라이즈 라이선스 경로로 제공된다.
아키텍처 변화
Stable Audio 3.0은 semantic-acoustic autoencoder를 사용하는 새 구조를 채택했다. 핵심은 긴 오디오를 고정 길이 샘플 조각이 아니라 더 유연한 가변 길이 생성 문제로 다루는 것이다.
주요 기능은 다음과 같다.
- 초 단위 길이 제어
- 음악·효과음 생성
- 여러 구간을 지정해 편집하는 인페인팅(inpainting)
- 기존 트랙 뒤를 이어 생성하는 causal continuation
- 사용자 오디오 라이브러리 기반 LoRA 파인튜닝
라이선스 전략
Stability AI는 Stable Audio 3.0이 라이선스된 데이터로 학습됐다고 강조한다. Community License에서는 생성 오디오의 소유와 상업적 사용을 허용하지만, 연 매출 100만 달러를 넘는 조직은 엔터프라이즈 라이선스가 필요하다.
이 지점은 AI 음악 모델에서 중요하다. Suno, Udio 등은 음악 저작권 소송 리스크가 계속 제기되고 있고, 기업 사용자는 모델 품질만큼이나 학습 데이터 provenance와 법적 면책(indemnification)을 따진다. Stable Audio 3.0의 차별점은 “긴 음악 생성”만이 아니라 “기업이 설명 가능한 라이선스 경로로 쓸 수 있는 오디오 모델”이라는 포지셔닝이다.
활용 케이스
- 게임·영상 제작자가 효과음과 배경 음악을 빠르게 시안화할 때
- 모바일 앱에서 오프라인 음악 생성 기능을 실험할 때
- 브랜드가 자체 사운드 라이브러리로 LoRA 파인튜닝해 일관된 오디오 스타일을 만들 때
- 음악 플랫폼이 API 또는 자체 호스팅 방식으로 대량 생성 파이프라인을 운영할 때
관련 문서
참고 자료
- Stability AI launches Stable Audio 3.0 with up to six-minute tracks and open weights — The Decoder (2026-05-20)