MolmoMotion은 Ai2가 공개한 언어 기반 3D 모션 포캐스팅(motion forecasting) 모델이다. RGB 관측 프레임, 물체 위 3D query point, “컵을 들어 올린다” 같은 행동 설명을 입력받아 향후 몇 초 동안 해당 점들이 3D 공간에서 어떻게 움직일지 예측한다.
어떤 문제를 푸는가
기존 비디오 모델은 이미 일어난 움직임을 추적하는 데 강하다. 하지만 로봇 조작, 물리적으로 그럴듯한 비디오 생성, 인터랙티브 시뮬레이션에는 “다음에 어떻게 움직일지”가 필요하다. MolmoMotion은 언어 지시와 3D 점 궤적을 결합해 이 미래 움직임을 예측한다.
함께 공개된 데이터셋
Ai2는 MolmoMotion-1M도 함께 공개했다. 인터넷 비디오에서 객체 중심 3D 점 궤적을 자동 추출하고, 행동 설명과 연결한 데이터셋이다.
| 항목 | 내용 |
|---|---|
| 데이터 규모 | 1M급 3D point trajectory |
| 행동 유형 | 736개 motion type |
| 객체 다양성 | 5.6K distinct object |
| 평가 | PointMotionBench |
자동 주석 파이프라인은 노이즈가 있는 비디오 트랙에서 객체와 함께 일관되게 움직이는 점만 남기고, 정지 구간을 제거해 실제 움직임 구간을 추출한다.
활용 가능성
- 로보틱스: 물체를 밀거나 집었을 때 다음 위치를 예측해 조작 계획에 사용
- 비디오 생성: 텍스트 지시와 궤적 조건을 결합해 물리적으로 더 일관된 프레임 생성
- 시뮬레이션 데이터 제작: 실제 비디오에서 추출한 3D 움직임으로 학습용 궤적 생성
관련 문서
- worldmonitor — 비디오와 세계 상태 이해를 다루는 모델
- nvidia-xr-ai — XR 기기와 멀티모달 에이전트 프레임워크
참고 자료
- MolmoMotion: Language-guided 3D motion forecasting — Hugging Face / Ai2 (2026-06-17)