AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

SANA-WM – 단일 GPU에서 1분 720p 영상을 생성하는 NVIDIA 오픈 세계 모델

2026-05-17

목차

왜 중요한가
핵심 구조
적용 대상
한계와 확인할 점
관련 문서
참고 자료

SANA-WM은 NVIDIA가 공개한 2.6B 파라미터 오픈 세계 모델(world model)이다. 이미지 한 장과 카메라 궤적을 입력받아 720p 해상도의 1분 영상을 생성하며, 장면의 구조와 6-DoF 카메라 이동을 비교적 오래 유지하는 데 초점을 둔다.

왜 중요한가

영상 생성 모델은 짧은 클립에서는 그럴듯해도 30초~1분으로 늘어나면 공간 일관성, 카메라 제어, 메모리 비용이 빠르게 무너진다. SANA-WM은 하이브리드 선형 어텐션과 2단계 생성 파이프라인으로 이 병목을 줄인다. 공개 페이지 기준 학습은 64개 H100에서 15일, 추론은 단일 H100에서 60초 720p 클립 생성이 가능하도록 설계됐다.

핵심 구조

구성	역할
하이브리드 선형 어텐션	프레임 단위 Gated DeltaNet과 주기적 소프트맥스 어텐션을 결합해 긴 컨텍스트 메모리 비용을 낮춘다
이중 카메라 제어	전역 포즈 분기와 픽셀 정렬 기하 분기를 함께 사용해 6-DoF 카메라 궤적을 따른다
2단계 생성	2.6B 백본이 긴 롤아웃을 만들고, 17B 장영상 리파이너가 질감·움직임·후반부 품질을 보강한다
포즈 주석 파이프라인	공개 비디오에서 미터 단위 6-DoF 카메라 포즈를 추출해 액션 라벨을 만든다

적용 대상

게임·시뮬레이션에서 1인칭 시점 환경 롤아웃을 빠르게 만들 때
로봇·자율주행 연구에서 카메라 궤적에 따른 시각 세계 변화를 검토할 때
영화·광고 사전 시각화에서 장면 분위기와 카메라 이동을 빠르게 탐색할 때

SANA-WM은 일반 텍스트-투-비디오 모델이라기보다, 고정된 장면 조건과 카메라 제어를 오래 유지하는 월드 모델에 가깝다. 따라서 대화형 시뮬레이터, 데이터 생성, 장기 영상 합성 연구에서 더 직접적인 의미가 있다.

한계와 확인할 점

모델 페이지는 코드와 논문을 공개하지만, 모델 가중치는 “soon” 상태로 표기돼 있다. 실제 재현 가능성은 가중치 공개 범위, 라이선스, 추론 코드의 메모리 요구량을 확인해야 판단할 수 있다.

관련 문서

video-use — AI 에이전트 기반 영상 편집 도구
gpt-image-2 — 이미지 생성 모델 생태계
seedance — 물리 법칙을 이해하는 AI 동영상 생성 모델

참고 자료

SANA-WM: Efficient Minute-Scale World Modeling — NVIDIA Project Page (2026-05)

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)