AI Sparkup

복잡한 AI 세상을 읽는 힘

스마트폰에서 실행되는 AI 오디오 생성: Stable Audio Open Small 출시

클라우드 없이 스마트폰에서 AI 오디오 생성이 가능해진다

Stability AI와 Arm이 협력하여 스마트폰에서 직접 실행 가능한 AI 오디오 생성 모델 ‘Stable Audio Open Small’을 출시했습니다. 이 모델은 클라우드 서버 없이도 일반 스마트폰에서 8초 이내에 최대 11초 길이의 스테레오 오디오를 생성할 수 있습니다.

현재 Suno나 Udio와 같은 대부분의 AI 오디오 생성 앱은 클라우드 처리에 의존하기 때문에 오프라인에서는 사용할 수 없었습니다. 그러나 Stable Audio Open Small은 스마트폰의 CPU만으로 오디오를 생성할 수 있어 인터넷 연결 없이도 언제 어디서나 창작이 가능합니다.

기술적 특징과 발전

Stable Audio Open Small은 원래 모델인 Stable Audio Open(1.1B 파라미터)의 경량화 버전으로, 341M 파라미터만을 사용합니다. 이는 모델 크기가 약 70% 감소했지만, 출력 품질과 프롬프트 충실도는 유지했다는 점에서 주목할 만합니다.

스마트폰에서 실행되는 AI 오디오 생성

Arm의 KleidiAI 라이브러리를 활용하여 최적화된 이 모델은:

  • 경량화: 341M 파라미터로 스마트폰에서 실행 가능
  • 고속: 스마트폰에서 8초 이내에 오디오 생성
  • 효율적: Arm CPU에 최적화되어 하드웨어 요구사항 최소화

활용 분야

Stable Audio Open Small은 특히 다음과 같은 오디오 생성에 최적화되어 있습니다:

  • 드럼 루프와 비트
  • 사운드 이펙트와 폴리(영화 음향 효과)
  • 악기 리프와 멜로디
  • 앰비언트 텍스처와 배경 사운드

게임 개발자, 음악 프로듀서, 콘텐츠 크리에이터들은 이 모델을 통해 실시간에 가까운 오디오 생성이 가능해져 창작 과정이 더 효율적이고 유연해질 것으로 예상됩니다.

저작권 이슈 해결

주목할 점은 Stable Audio Open Small의 학습 데이터셋이 Free Music Archive와 Freesound의 로열티 프리 오디오만으로 구성되었다는 것입니다. TechCrunch에 따르면, Suno와 Udio 같은 경쟁 서비스들이 저작권 문제로 논란을 겪고 있는 반면, Stability AI는 저작권 콘텐츠가 포함되지 않도록 철저한 데이터 선별 과정을 거쳤다고 합니다.

한계점

모든 기술이 그렇듯 Stable Audio Open Small도 몇 가지 한계가 있습니다:

  • 현실적인 보컬 생성 불가
  • 영어 프롬프트만 지원
  • 일부 음악 스타일에 대한 성능 불균형
  • 고품질 완성된 노래보다는 짧은 샘플 생성에 최적화

엣지 AI 시대의 의미

이 모델의 출시는 AI 워크로드가 클라우드에서 엣지 디바이스로 이동하는 큰 흐름을 보여줍니다. MIT Technology Review에 따르면, AI 기반 크리에이티브 미디어 워크로드가 점점 엣지로 이동하고 있으며, 이러한 경량 모델은 작업 복잡성에 맞게 컴퓨팅 리소스를 할당할 수 있게 해줍니다.

스마트폰에서 AI 오디오 생성이 가능해진 것은 일상 기기에서 복잡한 AI 모델을 실행할 수 있게 되었다는 중요한 이정표입니다. 이는 앞으로 더 많은 AI 기능이 클라우드 의존성 없이 우리의 모바일 기기에서 직접 실행될 수 있음을 시사합니다.

사용 시작하기

Stable Audio Open Small은 상업적, 비상업적 용도 모두에 Stability AI Community License 하에 무료로 사용할 수 있습니다. 기업 및 개발자는 Hugging Face에서 모델 가중치를, GitHub에서 코드를 다운로드할 수 있습니다.

Arm 하드웨어에서 Stable Audio Open Small을 배포하는 방법에 대한 자세한 내용은 Arm Learning Path에서 확인할 수 있습니다.


참고자료:

Comments