SANA-WM은 NVIDIA가 공개한 2.6B 파라미터 오픈 세계 모델(world model)이다. 이미지 한 장과 카메라 궤적을 입력받아 720p 해상도의 1분 영상을 생성하며, 장면의 구조와 6-DoF 카메라 이동을 비교적 오래 유지하는 데 초점을 둔다.
왜 중요한가
영상 생성 모델은 짧은 클립에서는 그럴듯해도 30초~1분으로 늘어나면 공간 일관성, 카메라 제어, 메모리 비용이 빠르게 무너진다. SANA-WM은 하이브리드 선형 어텐션과 2단계 생성 파이프라인으로 이 병목을 줄인다. 공개 페이지 기준 학습은 64개 H100에서 15일, 추론은 단일 H100에서 60초 720p 클립 생성이 가능하도록 설계됐다.
핵심 구조
| 구성 | 역할 |
|---|---|
| 하이브리드 선형 어텐션 | 프레임 단위 Gated DeltaNet과 주기적 소프트맥스 어텐션을 결합해 긴 컨텍스트 메모리 비용을 낮춘다 |
| 이중 카메라 제어 | 전역 포즈 분기와 픽셀 정렬 기하 분기를 함께 사용해 6-DoF 카메라 궤적을 따른다 |
| 2단계 생성 | 2.6B 백본이 긴 롤아웃을 만들고, 17B 장영상 리파이너가 질감·움직임·후반부 품질을 보강한다 |
| 포즈 주석 파이프라인 | 공개 비디오에서 미터 단위 6-DoF 카메라 포즈를 추출해 액션 라벨을 만든다 |
적용 대상
- 게임·시뮬레이션에서 1인칭 시점 환경 롤아웃을 빠르게 만들 때
- 로봇·자율주행 연구에서 카메라 궤적에 따른 시각 세계 변화를 검토할 때
- 영화·광고 사전 시각화에서 장면 분위기와 카메라 이동을 빠르게 탐색할 때
SANA-WM은 일반 텍스트-투-비디오 모델이라기보다, 고정된 장면 조건과 카메라 제어를 오래 유지하는 월드 모델에 가깝다. 따라서 대화형 시뮬레이터, 데이터 생성, 장기 영상 합성 연구에서 더 직접적인 의미가 있다.
한계와 확인할 점
모델 페이지는 코드와 논문을 공개하지만, 모델 가중치는 “soon” 상태로 표기돼 있다. 실제 재현 가능성은 가중치 공개 범위, 라이선스, 추론 코드의 메모리 요구량을 확인해야 판단할 수 있다.
관련 문서
- video-use — AI 에이전트 기반 영상 편집 도구
- gpt-image-2 — 이미지 생성 모델 생태계
- seedance — 물리 법칙을 이해하는 AI 동영상 생성 모델
참고 자료
- SANA-WM: Efficient Minute-Scale World Modeling — NVIDIA Project Page (2026-05)