Stable Audio 3.0 오픈 웨이트 출시, 저작권 리스크 없이 6분짜리 음악 생성

2026-05-25

﹒

AI 트렌드 분석

﹒

2 minutes

Suno와 Udio가 음악 저작권 소송에 휘말린 사이, Stability AI는 반대 방향을 택했습니다. 완전히 라이선스된 데이터로 학습한 AI 음악 모델을 오픈 웨이트로 공개한 겁니다.

사진 출처: Stability AI

Stability AI가 5월 20일 AI 음악 생성 모델 패밀리 Stable Audio 3.0을 출시했습니다. 4개 모델로 구성되며, 이 중 3개는 오픈 웨이트로 누구나 내려받아 사용할 수 있습니다. 전 모델이 완전히 라이선스된 데이터로 학습됐고, 최대 6분 20초 길이의 음악을 생성합니다.

출처: Stable Audio 3.0, the model family built with open-weight models – Stability AI

4개 모델, 용도별로 다르게

Stable Audio 3.0은 사용 목적과 환경에 따라 선택할 수 있는 4종으로 나뉩니다.

Small SFX (4억 5,900만 파라미터): 효과음 특화 모델. 스마트폰·노트북에서 구동 가능하며 최대 2분까지 생성합니다.
Small (4억 5,900만 파라미터): 짧은 음악 생성용 온디바이스 모델. 최대 2분이지만, 인터넷 연결 없이도 완전한 한 곡을 만들 수 있는 최초의 온디바이스 모델이라고 Stability AI는 밝혔습니다.
Medium (14억 파라미터): 최대 6분 20초. H200 GPU 기준 1.31초 만에 생성을 마칩니다.
Large (27억 파라미터): 최대 6분 20초. API와 엔터프라이즈 라이선스를 통해서만 접근 가능합니다.

Small SFX, Small, Medium 세 모델은 Hugging Face에서 오픈 웨이트로 공개됐습니다. Large는 오픈 웨이트 없이 Stability AI API와 파트너사 fal.ai를 통해서만 이용할 수 있습니다.

길어진 생성, 달라진 구조

이번 Stable Audio 3.0의 핵심 기술적 변화는 시맨틱-어쿠스틱 오토인코더 기반의 새 아키텍처입니다. 이 구조 덕분에 초 단위로 생성 길이를 조절하는 가변 길이 생성이 가능해졌습니다.

전작들과 비교하면 이 변화가 얼마나 큰지 실감할 수 있습니다. Stable Audio Open Small은 11초, Stable Audio Open은 47초까지만 생성할 수 있었습니다. 이번에 Small 모델이 최대 2분, Medium과 Large는 6분 20초까지 지원하면서 실제 한 곡 분량을 만들 수 있는 수준으로 올라섰습니다.

편집 기능도 추가됐습니다. 특정 구간만 수정하거나, 여러 구간을 동시에 바꾸거나, 원래 끝부분 너머로 곡을 이어붙이는 오디오 인페인팅이 가능합니다. Small·Medium 모델에는 LoRA 학습 문서도 함께 공개해 사용자가 자신만의 오디오 라이브러리로 모델을 파인튜닝할 수 있습니다.

저작권 리스크가 경쟁력이 되는 시대

Stability AI가 “완전 라이선스 데이터”를 반복해서 강조하는 데는 이유가 있습니다.

2025년 11월, 뮌헨 법원은 ChatGPT가 GEMA 카탈로그의 저작권 있는 가사를 학습 데이터에서 재생산할 수 있다고 판단해 OpenAI에 책임을 물었습니다. 독일 음악 저작권 단체 GEMA는 이 현상을 ‘메모라이제이션’이라 부르는데, 학습 데이터가 모델 가중치에 남아 그대로 출력될 수 있다는 개념입니다. Suno를 상대로도 유사한 소송이 진행 중이고, Udio는 YouTube 오디오를 학습에 사용했다고 소송에서 인정하기도 했습니다.

이런 상황에서 Stability AI는 Universal Music Group, Warner Music Group과의 파트너십을 바탕으로 라이선스 데이터만 학습에 사용했다고 밝히고 있습니다. Community License 아래서 사용자는 생성한 오디오 파일의 소유권을 갖고 상업적으로 활용할 수 있습니다. 연매출 100만 달러 이상의 기업은 엔터프라이즈 라이선스가 필요하며, 이 경우 법적 면책도 제공합니다.

참고자료:

Stable Audio 3.0 모델 컬렉션 – Hugging Face
Stability AI Launches Stable Audio 3.0 with Up to Six-Minute Tracks and Open Weights – The Decoder
Stability AI releases a new audio model that can create 6-minute songs – TechCrunch

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

Stable Audio 3.0 오픈 웨이트 출시, 저작권 리스크 없이 6분짜리 음악 생성

4개 모델, 용도별로 다르게

길어진 생성, 달라진 구조

저작권 리스크가 경쟁력이 되는 시대

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Claude Cowork, 코딩보다 보고서 쓰기에 4배 더 쓰인다

Claude Code 점수가 동료 컴퓨터에서 다르게 나오는 이유

에이전트 위해 CLI를 JSON으로 바꾸면, 비용이 11배 뛴다

Claude Code의 모델과 effort, 다른 걸 조절하고 있었다