AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI 오디오 모델, 2년 내 범용화된다: ElevenLabs CEO가 말하는 진짜 경쟁력

AI 오디오 분야 선두주자 ElevenLabs의 CEO가 자사의 핵심 기술인 AI 모델이 2~3년 내 범용화될 것이라고 공개적으로 밝혔습니다. 모델 성능 차별화에서 애플리케이션 차별화로의 전환이 시작되는 시점이며, 개발자와 AI 스타트업들이 지금 어디에 집중해야 하는지 방향을 제시합니다.

Mati Staniszewski, 테크크런치 디스럽트 2025 발표 (출처: TechCrunch)

핵심 포인트:

  • 2년 내 모델 성능 차이 축소 예측: 현재 가장 큰 차별화 요소인 AI 모델의 성능 격차가 빠르게 줄어들 것. 특정 음성이나 언어에서는 여전히 차이가 있겠지만, 전반적인 격차는 대폭 감소
  • 멀티모달로의 전환: 오디오+비디오, 오디오+LLM을 동시에 생성하는 융합 모델이 주류가 될 것. Google Veo 3처럼 영상과 오디오를 함께 만드는 방식이 표준이 되는 시대
  • 애플리케이션이 새로운 해자: 모델 기술보다 제품과 AI의 결합, 즉 ‘어떻게 쓰는가’가 경쟁력의 핵심. 애플의 하드웨어+소프트웨어 통합 전략을 벤치마킹

자기 사업의 미래를 부정하는 CEO

TechCrunch Disrupt 2025 무대에 선 Mati Staniszewski는 놀라운 발언을 했습니다. “AI 모델은 앞으로 2~3년 내에 범용화될 겁니다.” 33억 달러(약 4조 5천억 원) 가치를 인정받은 AI 오디오 기업의 CEO가 자사의 핵심 사업을 이렇게 전망한 거죠.

범용화(commoditization)란 차별화가 사라지고 누구나 비슷한 수준의 제품을 만들 수 있는 상태를 말합니다. 스마트폰 시장을 생각해 보세요. 초창기엔 아이폰이 압도적이었지만 지금은? 중국산 저가 스마트폰도 웬만한 기능은 다 됩니다.

Staniszewski는 냉정하게 현실을 인정했습니다. “음성이나 언어별로 차이가 있겠지만, 전반적인 성능 격차는 점점 줄어들 거예요.”

그런데도 모델을 만드는 이유

그럼 왜 지금 모델을 만들까요? 사실 이게 핵심입니다.

“단기적으로는 모델이 여전히 가장 큰 차별화 요소입니다. 가장 큰 변화를 만들어낼 수 있는 부분이죠.”

지금 AI 음성이 어색하거나 부자연스럽다면? 이건 모델을 직접 만들어야만 해결할 수 있는 문제입니다. API 갖다 쓰는 걸로는 한계가 있어요. ElevenLabs 연구팀은 모델 아키텍처의 난제들을 풀어냈고, 이 우위는 앞으로 1~2년은 유지될 겁니다.

70개 이상 언어를 지원하는 ElevenLabs의 AI 음성 기술 (출처: ElevenLabs)

하지만 장기적으로는? “다른 플레이어들도 결국 이 문제를 해결할 겁니다.” 솔직한 고백입니다.

다음 전장: 멀티모달과 애플리케이션

그래서 ElevenLabs는 이미 다음 단계를 준비하고 있습니다.

첫 번째는 멀티모달입니다. “앞으로 1~2년 안에 점점 더 많은 모델이 멀티모달 또는 융합 방식으로 움직일 겁니다. 오디오와 비디오를 동시에 만들거나, 오디오와 LLM을 대화 상황에서 동시에 생성하는 식이죠.”

Google의 Veo 3가 좋은 예입니다. 텍스트 프롬프트만으로 영상과 음향을 함께 생성하죠. 별도로 오디오를 입히는 게 아니라 처음부터 함께 만듭니다. OpenAI의 Sora도 처음엔 오디오 생성 기능이 없었지만 2025년 9월 출시된 Sora 2에서는 오디오와 영상을 함께 생성합니다.

두 번째는 애플리케이션입니다. Staniszewski는 애플을 언급했어요. “소프트웨어와 하드웨어의 결합이 애플의 마법이었던 것처럼, 제품과 AI의 결합이 우리 세대 최고의 유스케이스를 만들 거라고 생각합니다.”

모델은 범용화되지만, 그 모델을 어떻게 활용하느냐는 여전히 차별화 요소가 될 수 있다는 겁니다. ElevenLabs는 이미 Agents Platform과 Creative Platform을 통해 실제 서비스를 제공하고 있습니다.

주목해야 할 신호

이 발언에서 읽어야 할 신호가 있습니다.

첫째, 기업 간 파트너십입니다. Staniszewski는 “다른 기업들과 파트너십을 맺고 오픈소스 기술과 협력해서, 우리의 오디오 전문성을 다른 모델들의 전문성과 결합할 계획”이라고 밝혔습니다. 모든 걸 혼자 만들 필요는 없다는 뜻이죠.

실제로 ElevenLabs는 이미 다양한 파트너십을 구축하고 있습니다. 게임 분야에서는 Inworld와 손잡고 AI NPC에 생동감 있는 음성을 제공하고, 영상 생성 플랫폼 Synthesia는 ElevenLabs의 음성 복제 기술을 통합해 더욱 몰입감 있는 비디오를 만들어요. Google Cloud와의 파트너십으로는 전 세계 기업들에게 확장 가능한 음성 AI 솔루션을 제공하고, Perplexity 같은 AI 검색 엔진과도 협력하고 있습니다.

둘째, 유스케이스별 특화 전략입니다. “신뢰성과 확장성을 원하는 사람들은 여전히 다양한 유스케이스에 맞춰 다른 모델을 사용할 것”이라고 했어요. 범용 모델 하나로 모든 걸 해결하려 하기보다, 특정 상황에 최적화된 솔루션이 여전히 가치가 있다는 의미입니다.

ElevenLabs의 제품 전략이 이를 잘 보여줍니다. 단순히 음성 생성 API만 파는 게 아니라, Conversational AI로 대화형 AI 에이전트를 만들고(출시 2개월 만에 25만 개 이상 생성), Dubbing Studio로 32개 언어 더빙 서비스를 제공하며, Sound Effects 모델로 텍스트만으로 효과음을 만듭니다. 각 영역에 특화된 제품군을 만드는 거죠. Fortune 500 기업의 60% 이상이 이미 ElevenLabs의 플랫폼을 사용하고 있다는 점이 이 전략의 효과를 증명합니다.

AI 오디오 시장의 급격한 성장 (출처: Getty Images via TechCrunch)

셋째, 타이밍입니다. 지금은 모델이 차별화 요소지만, 2~3년 후엔 아닐 수 있습니다. AI 스타트업이라면 “우리의 모델이 더 좋아요”라는 주장만으로는 부족해질 거예요. “우리 제품이 실제 문제를 이렇게 해결합니다”라는 이야기를 준비해야 합니다.

새로운 경쟁의 시작

33억 달러 가치를 인정받는 기업의 CEO가 자사 기술의 범용화를 예견한다는 건 역설적이지만 현명한 판단입니다. 먼저 인정하고 대비하는 쪽이 살아남습니다.

AI 업계는 지금 큰 전환점을 지나고 있어요. 모델 성능 경쟁에서 애플리케이션 경쟁으로. 기술 우위에서 사용자 경험 우위로. ElevenLabs는 그 변화를 누구보다 먼저 읽고 있습니다.


참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다