AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

minWM – 비디오 월드 모델 개발자를 위한 풀스택 오픈소스 프레임워크

minWM은 shengshu-ai가 공개한 풀스택 오픈소스 월드 모델(world model) 프레임워크다. 텍스트-투-비디오(T2V) 파운데이션 모델을 출발점으로 삼아, 행동 조건부(action-conditioned) 대화형 비디오 월드 모델을 만드는 전 과정을 엔드투엔드로 안내한다. 특정 모델을 배포하는 것이 아니라 커뮤니티 신규 진입자를 위한 풀스택 프레임워크이자 튜토리얼을 목표로 한다.

무엇을 제공하는가

구성 요소내용
예제 데이터파이프라인 전 과정에서 즉시 사용 가능한 샘플 데이터셋
실행 스크립트각 단계별 재현 가능한 훈련·검증 스크립트
Claude 스킬개발 경험에서 도출된 재사용 가능한 AI 스킬 모음
온보딩 가이드신규 연구자·개발자를 위한 단계별 설명 문서

두 가지 훈련 경로

minWM은 인터랙티브 월드 모델에 도달하는 두 가지 경로를 지원한다.

  1. 파운데이션 모델에서 파인튜닝: 기존 T2V 모델(HunyuanVideo, Wan 등)을 기반으로 행동 조건부 미세조정
  2. 처음부터 훈련: 자체 데이터와 아키텍처로 처음부터 구축

각 경로는 모델 3종 × 2단계 × 4스테이지 구조로 문서화되며, 각 스테이지는 (1) 모델 다운로드 → (2) 데이터 준비 → (3) 훈련 스크립트 → (4) 검증 순서로 안내한다.

내장 Claude 스킬

minWM에는 개발 경험에서 축적된 Claude 스킬이 포함되어 있다.

  • **debug-world-model**: 훈련 파이프라인의 실패 패턴(손실 NaN, 프레임 떨림, 카메라 드리프트, 메모리 감쇠, 증류 붕괴 등)을 증상으로 진단
  • **integrate-new-backbone**: 새 비디오 DiT를 minWM에 연결하는 단계별 레시피 (HunyuanVideo·Wan 참조 구현 기반)

이 스킬들은 단순 문서화를 넘어, 실제 개발 과정에서 겪는 문제를 AI 보조로 해결할 수 있도록 설계됐다.

누가 쓰면 좋은가

사용자시나리오
월드 모델 연구 입문자처음부터 쌓기 어려운 파이프라인 전체를 단계별로 경험
로보틱스·시뮬레이션 개발자행동 조건부 비디오 생성 모델을 빠르게 프로토타이핑
T2V 연구자기존 T2V 모델을 인터랙티브 월드 모델로 확장하는 레시피 참조

관련 문서

  • qwen-vla — 로봇 조작·항법·궤적을 단일 VLA 모델로 통합한 Alibaba의 연구

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)