minWM은 shengshu-ai가 공개한 풀스택 오픈소스 월드 모델(world model) 프레임워크다. 텍스트-투-비디오(T2V) 파운데이션 모델을 출발점으로 삼아, 행동 조건부(action-conditioned) 대화형 비디오 월드 모델을 만드는 전 과정을 엔드투엔드로 안내한다. 특정 모델을 배포하는 것이 아니라 커뮤니티 신규 진입자를 위한 풀스택 프레임워크이자 튜토리얼을 목표로 한다.
무엇을 제공하는가
| 구성 요소 | 내용 |
|---|---|
| 예제 데이터 | 파이프라인 전 과정에서 즉시 사용 가능한 샘플 데이터셋 |
| 실행 스크립트 | 각 단계별 재현 가능한 훈련·검증 스크립트 |
| Claude 스킬 | 개발 경험에서 도출된 재사용 가능한 AI 스킬 모음 |
| 온보딩 가이드 | 신규 연구자·개발자를 위한 단계별 설명 문서 |
두 가지 훈련 경로
minWM은 인터랙티브 월드 모델에 도달하는 두 가지 경로를 지원한다.
- 파운데이션 모델에서 파인튜닝: 기존 T2V 모델(HunyuanVideo, Wan 등)을 기반으로 행동 조건부 미세조정
- 처음부터 훈련: 자체 데이터와 아키텍처로 처음부터 구축
각 경로는 모델 3종 × 2단계 × 4스테이지 구조로 문서화되며, 각 스테이지는 (1) 모델 다운로드 → (2) 데이터 준비 → (3) 훈련 스크립트 → (4) 검증 순서로 안내한다.
내장 Claude 스킬
minWM에는 개발 경험에서 축적된 Claude 스킬이 포함되어 있다.
- **
debug-world-model**: 훈련 파이프라인의 실패 패턴(손실 NaN, 프레임 떨림, 카메라 드리프트, 메모리 감쇠, 증류 붕괴 등)을 증상으로 진단 - **
integrate-new-backbone**: 새 비디오 DiT를 minWM에 연결하는 단계별 레시피 (HunyuanVideo·Wan 참조 구현 기반)
이 스킬들은 단순 문서화를 넘어, 실제 개발 과정에서 겪는 문제를 AI 보조로 해결할 수 있도록 설계됐다.
누가 쓰면 좋은가
| 사용자 | 시나리오 |
|---|---|
| 월드 모델 연구 입문자 | 처음부터 쌓기 어려운 파이프라인 전체를 단계별로 경험 |
| 로보틱스·시뮬레이션 개발자 | 행동 조건부 비디오 생성 모델을 빠르게 프로토타이핑 |
| T2V 연구자 | 기존 T2V 모델을 인터랙티브 월드 모델로 확장하는 레시피 참조 |
관련 문서
- qwen-vla — 로봇 조작·항법·궤적을 단일 VLA 모델로 통합한 Alibaba의 연구
참고 자료
- shengshu-ai/minWM — GitHub 공식 저장소