기존 TTS 도구에서 목소리를 조정하는 방법은 대개 이랬습니다. 속도는 1.2배, 피치는 +2, 볼륨은 80%. 그런데 Google이 오늘 발표한 Gemini 3.1 Flash TTS에서는 이렇게 씁니다. “이 캐릭터는 런던 브릭스턴 출신 라디오 DJ입니다. 지금 밤 10시인데 스튜디오는 눈부시게 밝고, 그는 흥분해서 믹싱 데스크 위를 손으로 두드리고 있습니다.”

Google이 4월 15일 Gemini 3.1 Flash TTS를 공식 발표했습니다. 자연어 명령으로 AI 음성의 스타일, 억양, 감정, 속도를 세밀하게 제어할 수 있는 새로운 텍스트 음성 변환 모델로, Gemini API와 Google AI Studio, Vertex AI, Google Vids에서 프리뷰로 사용 가능합니다.
출처: Gemini 3.1 Flash TTS: New text-to-speech AI model – Google Blog
숫자 조정에서 ‘연출’로
기존 TTS 시스템은 음성 파라미터를 수치로 제어하는 방식이었습니다. 빠르게 말하게 하려면 speed 값을 올리고, 강조를 주려면 피치를 조정하는 식이었죠. 이 방식은 정밀하지만, 실제 원하는 결과를 얻으려면 수치와 청각 간의 감각을 직접 익혀야 하는 진입 장벽이 있었습니다.
Gemini 3.1 Flash TTS는 이 과정을 자연어로 대체합니다. 핵심 개념은 오디오 태그(Audio Tags)입니다. 텍스트 입력 안에 자연어 명령을 직접 삽입하면, 모델이 해당 맥락을 이해해서 그에 맞는 발화를 생성합니다. 예를 들어 스크립트 중간에 [excitedly], [shouting] 같은 인라인 태그를 넣으면 그 지점에서 목소리 톤이 바뀝니다. 수치 없이도요.
감독처럼 캐릭터를 설정한다
더 흥미로운 건 씬 레벨의 연출 구조입니다. Google은 이를 ‘디렉터의 의자에 앉힌다’고 표현했는데, 실제 작동 방식을 보면 이 비유가 꽤 정확합니다.
프롬프트 구조는 크게 세 층으로 나뉩니다.
- 씬 디렉션(Scene Direction): 배경 환경과 상황을 설정합니다. 스튜디오인지, 야외인지, 어떤 분위기인지를 묘사하면 캐릭터가 그 맥락 안에서 자연스럽게 반응합니다.
- 오디오 프로필(Audio Profile): 캐릭터를 정의합니다. 출신 지역, 말하는 스타일, 목소리 톤의 기본값 등 고수준 설정을 담습니다.
- 인라인 태그: 스크립트 중간에 삽입해서 특정 문장이나 단어에서만 발화 방식을 바꿉니다. 위 두 설정과 독립적으로 작동해서, 기본 톤을 유지하면서도 특정 순간에만 다른 감정을 끼워 넣을 수 있습니다.
이 설정을 한번 완성하면, Gemini API 코드로 내보내기(export)해서 동일한 캐릭터 목소리를 여러 프로젝트에 걸쳐 일관되게 재사용할 수 있습니다.
성능 지표와 한계
Artificial Analysis TTS 리더보드에서 Gemini 3.1 Flash TTS는 Elo 점수 1,211을 기록했습니다. 이 리더보드는 수천 건의 블라인드 인간 선호도 평가를 기반으로 하는데, 품질 대비 비용 측면에서도 ‘가장 매력적인 구간’에 위치한다고 Artificial Analysis는 분석했습니다.
70개 이상의 언어를 지원하고, 다중 화자(multi-speaker) 대화도 네이티브로 처리합니다. 생성된 모든 오디오에는 SynthID 워터마크가 삽입되어 있어서, AI 생성 음성임을 기계적으로 식별할 수 있습니다.
현재는 오디오 전용 출력만 가능합니다. 텍스트와 오디오를 동시에 받는 멀티모달 출력은 지원하지 않습니다. 프리뷰 단계인 만큼, 실제 서비스 적용 전에 오디오 품질과 태그 해석 일관성을 충분히 검토할 필요가 있습니다.
‘TTS 파라미터’라는 개념이 사라지는 방향
이번 발표가 흥미로운 이유는 단순히 TTS 성능이 좋아진 것이 아니라, 사용자와 AI 사이의 인터페이스 방식이 바뀌고 있기 때문입니다. 수치 파라미터를 다루던 자리에 맥락을 묘사하는 자연어가 들어오면서, 도구를 ‘조작’하는 대신 ‘지시’하는 형태가 됩니다.
다국어 지원과 씬 기반 연출, 캐릭터 일관성 유지 기능이 결합되면 팟캐스트, 게임 내 NPC 대화, 오디오북, 글로벌 콘텐츠 현지화 같은 영역에서 활용 가능성이 넓어질 것으로 보입니다. 구체적인 프롬프트 구조와 지원 언어별 성능 차이는 Google AI Studio에서 직접 테스트해볼 수 있습니다.

답글 남기기