AI 비디오 생성 모델들이 하나씩 등장하지만, 대부분 텍스트 프롬프트에만 의존합니다. “이런 장면을 만들어줘”라고 말하면 모델이 알아서 만들어주죠. 그런데 만약 특정 카메라 워크를 따라하게 하거나, 여러 이미지를 조합해 스토리를 만들고 싶다면? 기존 방식으론 한계가 명확했습니다.

ByteDance가 2026년 2월 10일 베타로 공개한 Seedance 2.0은 이 문제를 정면 돌파합니다. 이미지, 비디오, 오디오, 텍스트를 동시에 입력받아 4-15초 길이의 시네마틱 영상을 자동으로 생성하죠. 단순히 “그럴듯한 영상”을 만드는 게 아니라, 참조 영상의 카메라 무브먼트를 그대로 옮기고, 여러 장면을 자연스럽게 이어붙이는 게 핵심입니다.
출처: Bytedance shows impressive progress in AI video with Seedance 2.0 – The Decoder
최대 12개 파일을 한번에 입력
Seedance 2.0의 가장 큰 특징은 멀티모달 입력입니다. 사용자는 이미지 최대 9개, 비디오 3개, 오디오 3개를 동시에 넣을 수 있어요. 총 12개 파일까지 조합 가능하죠.
예를 들어 “검은 옷 입은 남자가 도망치고 뒤에서 사람들이 쫓아온다. 카메라가 측면 추격 샷으로 전환된다. 남자가 당황해서 과일 가판대를 넘어뜨리고 다시 일어나 달아난다”는 프롬프트를 주면, 모델이 장면 구성, 카메라 워크, 음향 효과까지 알아서 생성합니다.
더 흥미로운 건 참조 능력입니다. 사용자가 직접 스마트폰으로 카메라 무브먼트를 촬영한 다음, “@Video1의 카메라 움직임을 적용해줘”라고 명령하면 그 움직임을 새 영상에 그대로 전달합니다. 또 “@Frame2를 위쪽 장면으로, @Frame3을 왼쪽으로” 같은 식으로 여러 이미지의 구도를 조합할 수도 있어요.
영상 확장과 캐릭터 교체도 가능
기존 영상을 자연스럽게 이어붙이는 것도 Seedance 2.0의 강점입니다. 4초짜리 클립을 주면 그 뒤로 이어지는 장면을 생성해서 10초, 15초로 확장할 수 있죠. 또 영상 속 캐릭터를 다른 인물이나 객체로 교체하거나, 새 캐릭터를 추가하는 작업도 지원합니다.
ByteDance 공식 문서에 따르면, 생성되는 영상은 자동으로 음향 효과나 배경 음악과 함께 제공됩니다. 텍스트 프롬프트만으로도 “발소리”, “흥분한 군중의 외침” 같은 디테일까지 반영되죠.
다만 현재는 컴플라이언스 이유로 실제 사람 얼굴을 업로드하는 기능은 차단되어 있습니다. ByteDance는 딥페이크 남용 우려에 대응해 실시간 본인 확인 절차를 도입했고, “실제 인물처럼 보이는 사진이나 영상은 참조 대상으로 사용할 수 없다”고 공지했습니다.
AI 비디오 경쟁 가속화
Seedance 2.0 발표는 중국 AI 비디오 시장의 경쟁을 더욱 가속화시켰습니다. 불과 며칠 전 경쟁사 Kuaishou가 Kling 3.0을 공개했고, 이 역시 멀티모달 입출력을 지원하죠. South China Morning Post 보도에 따르면, 이런 강력한 비디오 모델 출시 소식에 중국 미디어 및 AI 관련 주식이 최대 20% 상승하기도 했습니다.
현재 Seedance 2.0은 Jimeng AI 플랫폼에서 제한된 사용자에게만 베타로 제공 중입니다. 생성 비용이나 속도, 실사용 환경에서의 일관성에 대해서는 아직 공개된 정보가 없어요. ByteDance가 공개한 데모 영상들은 당연히 가장 잘 나온 결과물을 선별한 것이겠지만, 그 품질 자체는 충분히 인상적입니다.
AI 비디오 생성이 “그럴듯한 영상 한 컷”을 넘어 복잡한 멀티모달 입력을 소화하고, 참조 자료를 정확히 반영하는 단계로 진입하고 있다는 점은 분명해 보입니다. 전문 영상 제작 워크플로우에 통합되기까진 여전히 일관성 문제 같은 허들이 남아있지만, 기술적 방향성은 확실히 진전되고 있습니다.
참고자료:
- 即梦 Seedance 2.0 使用手册 – ByteDance Jimeng 공식 문서
- ByteDance’s new model sparks stock rally as China’s AI video battle escalates – South China Morning Post
- ByteDance suspends Seedance 2.0 feature that turns facial photos into personal voices over potential risks – TechNode

답글 남기기