AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Gemini 3.1 Flash TTS – 프롬프트로 음색·감정·억양을 조절하는 Google 텍스트 음성 변환 모델

Gemini 3.1 Flash TTS는 Google이 2026년 4월 공개한 텍스트 음성 변환(TTS, Text-to-Speech) 모델로, 상세한 프롬프트를 통해 화자의 성격, 억양, 감정 상태, 속도까지 세밀하게 제어할 수 있다. 기존 TTS와 달리 목소리 매개변수를 직접 조작하는 것이 아니라 자연어 시나리오 설명으로 원하는 음성을 연출한다. gemini API에서 gemini-3.1-flash-tts-preview 모델 ID로 접근할 수 있다.

등장 배경

기존 TTS는 음성 속도(rate), 피치(pitch), 음량 같은 기술적 파라미터로만 제어할 수 있었다. 실제로 라디오 DJ의 흥겨운 목소리나 특정 지역 억양을 재현하려면 전문적인 TTS 엔지니어링이 필요했다. Gemini 3.1 Flash TTS는 배경 상황, 성격, 감정을 묘사하는 시나리오 프롬프트만으로 이러한 음성을 생성한다.

사용법

표준 Gemini API를 통해 호출하되, 출력은 오디오 파일로만 제공된다.

import google.generativeai as genai

genai.configure(api_key="your-api-key")
model = genai.GenerativeModel("gemini-3.1-flash-tts-preview")

프롬프트 방식: 시나리오 기반 제어

프롬프팅 가이드의 핵심은 화자 프로필 + 장면 설정 + 감독 노트 + 스크립트 구조다:

# 화자 프로필: Jaz R.
## "The Morning Hype"

## 장면: 런던 스튜디오
새벽 10시, 유리벽 스튜디오. ON AIR 표시등이 켜져 있다.
Jaz는 서서 믹싱 데스크에서 일하고 있다.

### 감독 노트
- 미소가 느껴지는 목소리: 항상 밝고 따뜻한 톤
- 역동적: 큰 목소리지만 소리치지 않음
- 속도: 에너지 넘치는 빠른 템포
- 억양: Brixton, 런던 출신

### 스크립트
[흥분하며] 지금 스튜디오에 엄청난 에너지가 넘칩니다!
[소리치며] 볼륨을 높여요! 프로젝트 로드맵이 3, 2... 시작!

억양 변경도 시나리오 수정으로 간단히 처리된다. “Brixton, 런던”을 “Newcastle”로 바꾸면 뉴캐슬 억양의 동일한 스크립트 음성이 생성된다.

다화자 대화 지원

두 명 이상의 화자가 대화하는 형식도 지원한다:

TTS the following conversation between Joe and Jane:

Joe: How's it going today Jane?
Jane: [yawn] Not too bad, how about you?

gemini-3.1-flash-tts-preview의 Multi-Speaker 모드에서 화자별 이름과 음성(Puck, Kore 등)을 지정할 수 있다.

활용 사례

사례설명
팟캐스트 자동화다화자 스크립트에서 자연스러운 팟캐스트 오디오 생성
광고 음성특정 억양과 에너지를 가진 라디오/영상 광고 제작
교육 콘텐츠지역별 억양 예시나 감정 표현 교육 자료
게임/인터랙티브NPC 다양한 성격의 음성 생성

관련 문서


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)