AI Sparkup

복잡한 AI 세상을 읽는 힘

인간 수준의 AI 음성 생성 혁명: Orpheus TTS 모델 소개

Orpheus TTS 모델 아키텍처

오픈소스 음성 기술의 새로운 지평

지금까지 오픈소스 TTS(Text-to-Speech) 모델들은 닫힌 소스(상업용) 모델들과 비교했을 때 경쟁력이 부족했습니다. 특히 인간의 감정 지능을 표현하거나 공감을 일관되게 전달하는 측면에서 한계가 있었죠. 그러나 이제 상황이 바뀌었습니다.

Canopy Labs가 최근 공개한 ‘Orpheus’는 인간 수준의 음성 생성을 위한 최첨단 음성-LLM(대규모 언어 모델) 제품군입니다. 이 모델은 Llama 아키텍처를 기반으로 하며, 다양한 크기로 제공됩니다:

  • Medium – 3B 파라미터
  • Small – 1B 파라미터
  • Tiny – 400M 파라미터
  • Nano – 150M 파라미터

놀라운 점은 아주 작은 모델 크기에서도 매우 높은 품질과 미적으로 아름다운 음성 생성이 가능하다는 것입니다. 실제로 이 모델들은 기존의 상용 서비스와 비교해도 뒤처지지 않는 성능을 보여주고 있습니다.

Orpheus의 기술적 특징

Orpheus 토크나이저 구조

Orpheus의 사전 훈련 모델은 Llama-3B를 백본으로 사용합니다. 이 모델은 10만 시간 이상의 영어 음성 데이터와 수십억 개의 텍스트 토큰으로 훈련되었습니다. 텍스트 토큰으로 훈련함으로써 언어에 대한 뛰어난 이해력을 유지하며 TTS 작업에서의 성능을 향상시킵니다.

Canopy Labs는 동일한 아키텍처와 훈련 방법을 사용하여 엔드투엔드 음성 모델을 훈련하고 있으며, 향후 몇 주 내에 오픈소스 엔드투엔드 음성 모델을 공개할 계획이라고 합니다.

주목할 만한 능력들

1. 자연스러운 말더듬 처리

Orpheus는 말을 더듬거나 주저하는 부분(disfluencies)을 자연스럽게 처리할 수 있습니다. 이는 “음… 그러니까…” 같은 자연어 발화에서 흔히 나타나는 불완전함을 처리하는 데 중요한 기능입니다.

2. 제로샷 음성 클로닝

Orpheus의 사전 훈련 모델은 음성 클로닝을 위해 특별히 훈련되지 않았음에도 불구하고, 대량의 사전 훈련 데이터 덕분에 제로샷 음성 클로닝이 가능합니다. 즉, 짧은 음성 샘플만으로도 해당 목소리를 복제하여 새로운 텍스트를 해당 목소리로 읽을 수 있습니다.

모델은 자연스러운 억양과 감정을 선택하며, 이는 선두적인 모델들과 견줄 만한, 심지어 더 뛰어난 수준입니다.

3. 감정과 억양 제어

Orpheus는 특정 감정으로 말하도록 기본 모델을 훈련시킬 수 있습니다. 수십 개의 고품질 미세 조정 예제만으로도 다양한 감정 표현이 가능합니다. 모델에는 감정 태그가 포함된 텍스트-음성 쌍이 제공되었으며, 이를 통해 다음과 같은 다양한 감정 표현이 가능합니다:

  • 일반 톤(normal)
  • 느린 말투(slow)
  • 우는 목소리(crying)
  • 졸린 목소리(sleepy)
  • 한숨(sigh)
  • 웃음(chuckle)

실시간 사용 가능성

Orpheus 모델은 실시간 출력 스트리밍을 지원하며 약 200ms의 매우 낮은 지연 시간을 제공합니다. 더 낮은 지연 시간을 위해 모델의 KV 캐시에 텍스트를 입력 스트리밍하면 지연 시간을 25-50ms까지 줄일 수 있습니다.

이러한 실시간 사용은 대화형 사용 사례를 가능하게 합니다. 즉, 실시간 AI 대화 시스템이나 가상 비서 등에 적용할 수 있다는 뜻입니다.

오픈소스로서의 의미

Orpheus의 등장은 오픈소스 TTS 모델이 상업용 모델과 동등하거나 더 나은 성능을 발휘할 수 있음을 보여주는 중요한 사례입니다. 이는 음성 합성 기술의 민주화에 큰 기여를 하며, 개발자들과 기업들이 고품질 음성 생성 기능을 자유롭게 활용할 수 있게 합니다.

GitHub, Hugging Face, Google Colab 등 다양한 플랫폼에서 Orpheus를 사용해볼 수 있으며, 직접 자신의 데이터로 모델을 미세 조정할 수도 있습니다.

나아갈 방향

AI 음성 기술은 계속해서 발전하고 있으며, Orpheus 같은 모델의 등장은 이 분야에서 새로운 가능성을 열어줍니다. 이는 단순히 텍스트를 음성으로 변환하는 것을 넘어 감정적인 뉘앙스, 자연스러운 말투, 개인화된 목소리 등을 포함하는 보다 인간적인 AI 음성 경험을 만들어가는 중요한 진전입니다.

앞으로 Orpheus와 같은 모델이 다양한 언어로 확장되고, 보다 세밀한 감정 제어가 가능해지며, 더 작은 컴퓨팅 리소스에서도 고품질 음성을 생성할 수 있게 된다면, AI 음성 기술은 우리의 일상에 더욱 깊숙이 통합될 것입니다.

참고자료: Canopy Labs – Model Releases


Awsom GPT에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다