Seedance – ByteDance의 물리 법칙을 이해하는 AI 동영상 생성 모델

등장 배경
핵심 기능
멀티 레퍼런스 입력
통합 오디오-비디오 생성
물리 기반 렌더링
타임코드 멀티샷 프롬프팅
API 사용법
누가 쓰면 좋은가
관련 문서

Seedance 2.0은 ByteDance가 개발한 AI 동영상 생성(video generation) 모델로, 텍스트·이미지·영상·오디오 최대 9+3+3개 참조 입력을 조합해 최대 15초 멀티샷 영상을 생성할 수 있다. 물리 법칙 기반 렌더링과 오디오-비디오 통합 아키텍처가 특징이며, Replicate API를 통해 접근 가능하다.

등장 배경

초기 AI 동영상 모델은 물리적 상호작용, 복잡한 카메라 무브먼트, 자연스러운 오디오 동기화 등에서 눈에 띄는 아티팩트를 보였다. Google Veo 3, 쾌쇼우의 Kling 등이 품질을 높여왔지만, Seedance 2.0은 물리 시뮬레이션 수준의 렌더링과 통합 오디오 생성으로 한 단계 도약했다는 평가를 받는다.

핵심 기능

멀티 레퍼런스 입력

단순 텍스트 프롬프트를 넘어 다양한 참조 자료를 조합해 “감독하듯” 영상을 설계할 수 있다.

입력 유형	최대 개수	활용
이미지	9개	캐릭터/스타일/구도 일관성 유지
영상 클립	3개	카메라 움직임 전이(motion transfer)
오디오 파일	3개	오디오 리듬 기반 편집 동기화

프롬프트에서 [Image1], [Audio1] 형태로 각 입력을 참조한다.

통합 오디오-비디오 생성

오디오를 나중에 덧씌우는 방식이 아닌 단일 아키텍처에서 동시 생성한다. 배경 음악, 환경음, 캐릭터 음성이 밀리초 단위로 영상과 동기화되며, 악기 연주 장면에서 각 악기 소리가 해당 연주 동작과 정확히 일치한다.

물리 기반 렌더링

복잡한 물리 시뮬레이션을 정확하게 처리한다. 기존 모델이 차량 같은 물체를 단순히 앞으로 이동시키는 것과 달리, Seedance 2.0은 거친 지형에서 차체가 상하로 흔들리는 등 물리 법칙을 반영한 움직임을 생성한다.

타임코드 멀티샷 프롬프팅

15초 영상을 여러 씬으로 나눠 시간 코드를 지정할 수 있다:

[0-4s]: 와이드 에스타블리싱 샷, 정적 카메라, 아침의 대나무 숲
[4-9s]: 미디엄 샷, 느린 푸시인, 격투사가 앞으로 걸어옴
[9-15s]: 클로즈업, 오빗 샷, 격투사가 공격, 슬로모션

API 사용법

import replicate

output = replicate.run(
    "bytedance/seedance-2.0",
    input={
        "prompt": "A fighter jet launches from an aircraft carrier at sunset...",
        "duration": 10,
        "resolution": "720p",
        "aspect_ratio": "16:9",
        "generate_audio": True,
        # "reference_images": ["https://..."]
        # "reference_videos": ["https://..."]
        # "reference_audios": ["https://..."]
    }
)

누가 쓰면 좋은가

영상 제작자: 프롬프트만으로 고품질 단편 영상 프로토타입 제작
마케터: 제품 영상, UGC, 광고 영상의 빠른 초안 생성
개발자: Replicate API를 통한 AI 동영상 파이프라인 구축

AI Sparkup