AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

MolmoMotion – 언어 지시로 3D 물체 움직임을 예측하는 모션 포캐스팅 모델

MolmoMotion은 Ai2가 공개한 언어 기반 3D 모션 포캐스팅(motion forecasting) 모델이다. RGB 관측 프레임, 물체 위 3D query point, “컵을 들어 올린다” 같은 행동 설명을 입력받아 향후 몇 초 동안 해당 점들이 3D 공간에서 어떻게 움직일지 예측한다.

어떤 문제를 푸는가

기존 비디오 모델은 이미 일어난 움직임을 추적하는 데 강하다. 하지만 로봇 조작, 물리적으로 그럴듯한 비디오 생성, 인터랙티브 시뮬레이션에는 “다음에 어떻게 움직일지”가 필요하다. MolmoMotion은 언어 지시와 3D 점 궤적을 결합해 이 미래 움직임을 예측한다.

함께 공개된 데이터셋

Ai2는 MolmoMotion-1M도 함께 공개했다. 인터넷 비디오에서 객체 중심 3D 점 궤적을 자동 추출하고, 행동 설명과 연결한 데이터셋이다.

항목내용
데이터 규모1M급 3D point trajectory
행동 유형736개 motion type
객체 다양성5.6K distinct object
평가PointMotionBench

자동 주석 파이프라인은 노이즈가 있는 비디오 트랙에서 객체와 함께 일관되게 움직이는 점만 남기고, 정지 구간을 제거해 실제 움직임 구간을 추출한다.

활용 가능성

  • 로보틱스: 물체를 밀거나 집었을 때 다음 위치를 예측해 조작 계획에 사용
  • 비디오 생성: 텍스트 지시와 궤적 조건을 결합해 물리적으로 더 일관된 프레임 생성
  • 시뮬레이션 데이터 제작: 실제 비디오에서 추출한 3D 움직임으로 학습용 궤적 생성

관련 문서

  • worldmonitor — 비디오와 세계 상태 이해를 다루는 모델
  • nvidia-xr-ai — XR 기기와 멀티모달 에이전트 프레임워크

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)