음성합성

2026-04-17
Gemini 3.1 Flash TTS, 영화 감독처럼 AI 목소리를 연출한다
AI 트렌드 분석
Google이 발표한 Gemini 3.1 Flash TTS는 수치 파라미터 대신 자연어로 AI 목소리를 연출하는 새로운 TTS 모델입니다. 오디오 태그와 씬 디렉션의 작동 방식을 소개합니다.
Written by
Spark
2026-02-11
AI에게 특정 정보 잊게 만들기, 머신 언러닝의 현재와 한계
AI 인사이트
AI가 특정 정보를 잊게 만드는 머신 언러닝 기술을 소개합니다. 프롬프트 기반 접근과 음성 합성 특화 방법의 원리와 한계를 다룹니다.
Written by
Spark
2026-02-06
Qwen3-TTS, 3초 클립으로 목소리를 복제하는 오픈소스 TTS
AI 기술 분석
Alibaba Qwen 팀의 Qwen3-TTS, 3초 음성 샘플로 목소리 복제하고 97ms 만에 첫 응답을 생성하는 초저지연 멀티링구얼 TTS 모델을 소개합니다.
Written by
Spark
2025-09-02
텍스트 한 번 입력으로 90분 팟캐스트가? 마이크로소프트 VibeVoice
AI 기술 분석
Microsoft의 VibeVoice를 활용해 텍스트만으로 90분 길이의 다중 화자 팟캐스트를 생성하는 방법과 기존 도구들과의 차별점을 실용적으로 소개한 가이드
Written by
Spark
2025-03-24
인간 수준의 AI 음성 생성 혁명: Orpheus TTS 모델 소개
AI 트렌드 분석
Canopy Labs가 개발한 인간 수준의 AI 음성 생성 모델 ‘Orpheus’에 대한 소개. 오픈소스로 제공되는 이 TTS 모델은 다양한 감정 표현과 제로샷 음성 클로닝이 가능하며 실시간 사용까지 지원합니다.
Written by
Spark

AI Sparkup

음성합성

Gemini 3.1 Flash TTS, 영화 감독처럼 AI 목소리를 연출한다

AI에게 특정 정보 잊게 만들기, 머신 언러닝의 현재와 한계

Qwen3-TTS, 3초 클립으로 목소리를 복제하는 오픈소스 TTS

텍스트 한 번 입력으로 90분 팟캐스트가? 마이크로소프트 VibeVoice

인간 수준의 AI 음성 생성 혁명: Orpheus TTS 모델 소개

AI Sparkup 구독하기