AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Stable Audio 3.0 – 6분 음악 생성과 오픈 웨이트를 지원하는 Stability AI 오디오 모델

Stable Audio 3.0은 Stability AI가 공개한 생성 오디오 모델 제품군이다. 4개 변형 중 3개는 오픈 웨이트로 제공되며, 최대 6분 20초 길이의 음악 생성, 세그먼트 편집, 기존 트랙 연장, LoRA 기반 파인튜닝을 지원한다.

모델 라인업

모델파라미터생성 길이공개 방식용도
Stable Audio 3.0 Small SFX459M최대 2분오픈 웨이트효과음, 모바일·노트북
Stable Audio 3.0 Small459M최대 2분오픈 웨이트짧은 음악, 온디바이스 작곡
Stable Audio 3.0 Medium1.4B최대 6분 20초오픈 웨이트긴 음악 생성
Stable Audio 3.0 Large2.7B미공개API·기업 호스팅고음악성·대량 생성 플랫폼

Small 계열은 H200 GPU 기준 매우 짧은 추론 시간으로 소개됐고, Small 모델은 오프라인 온디바이스 음악 생성까지 겨냥한다. Large는 Hugging Face 오픈 웨이트가 아니라 Stability AI API, fal.ai, 엔터프라이즈 라이선스 경로로 제공된다.

아키텍처 변화

Stable Audio 3.0은 semantic-acoustic autoencoder를 사용하는 새 구조를 채택했다. 핵심은 긴 오디오를 고정 길이 샘플 조각이 아니라 더 유연한 가변 길이 생성 문제로 다루는 것이다.

주요 기능은 다음과 같다.

  • 초 단위 길이 제어
  • 음악·효과음 생성
  • 여러 구간을 지정해 편집하는 인페인팅(inpainting)
  • 기존 트랙 뒤를 이어 생성하는 causal continuation
  • 사용자 오디오 라이브러리 기반 LoRA 파인튜닝

라이선스 전략

Stability AI는 Stable Audio 3.0이 라이선스된 데이터로 학습됐다고 강조한다. Community License에서는 생성 오디오의 소유와 상업적 사용을 허용하지만, 연 매출 100만 달러를 넘는 조직은 엔터프라이즈 라이선스가 필요하다.

이 지점은 AI 음악 모델에서 중요하다. Suno, Udio 등은 음악 저작권 소송 리스크가 계속 제기되고 있고, 기업 사용자는 모델 품질만큼이나 학습 데이터 provenance와 법적 면책(indemnification)을 따진다. Stable Audio 3.0의 차별점은 “긴 음악 생성”만이 아니라 “기업이 설명 가능한 라이선스 경로로 쓸 수 있는 오디오 모델”이라는 포지셔닝이다.

활용 케이스

  • 게임·영상 제작자가 효과음과 배경 음악을 빠르게 시안화할 때
  • 모바일 앱에서 오프라인 음악 생성 기능을 실험할 때
  • 브랜드가 자체 사운드 라이브러리로 LoRA 파인튜닝해 일관된 오디오 스타일을 만들 때
  • 음악 플랫폼이 API 또는 자체 호스팅 방식으로 대량 생성 파이프라인을 운영할 때

관련 문서

  • omnivoice — 오픈소스 제로샷 TTS 모델
  • voxcpm2 — 다국어 TTS 모델
  • vibevoice — 장시간 TTS·ASR·스트리밍 음성 AI 모델

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)