AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

NVIDIA Cosmos – Physical AI를 위한 세계 모델 오픈 플랫폼

NVIDIA Cosmos는 로봇, 자율주행, 스마트 인프라 등 Physical AI 시스템 개발을 위한 오픈 플랫폼이다. 세계 모델(World Model), 데이터셋, 도구를 통합 제공하며, 최신 버전인 Cosmos 3는 언어·이미지·비디오·사운드·액션을 단일 아키텍처로 처리하는 옴니모달 세계 모델이다.

Cosmos 3 아키텍처

Cosmos 3는 Mixture-of-Transformers(MoT) 아키텍처 기반이다. 두 가지 처리 경로를 하나의 모델에서 지원한다:

모드입력출력사용 사례
Reasoner텍스트, 비전텍스트세계 이해, 물리 추론, 작업 계획, 액션 예측
Generator텍스트, 비전, 사운드, 액션비전, 사운드, 액션세계 생성, 시뮬레이션, 미래 예측, 합성 데이터

Reasoner 모드는 인과적 자기주의(causal self-attention)로 다음 토큰 예측에 최적화되고, Generator 모드는 완전 주의(full attention)로 노이즈 제거(diffusion) 방식의 멀티모달 생성에 최적화된다. 두 모드는 동일한 트랜스포머 아키텍처, 3D mRoPE 위치 임베딩을 공유한다.

모델 패밀리

모델크기주요 기능
Cosmos3-Nano16B콤팩트 옴니모달 세계 모델
Cosmos3-Super64B최전선급 옴니모달 세계 모델
Cosmos3-Super-Text2Image64B고품질 텍스트→이미지 생성
Cosmos3-Super-Image2Video64B시간적 일관성 있는 이미지→비디오 생성
Cosmos3-Nano-Policy-DROID16BDROID 조작 로봇 비전-언어 정책

주요 기능

  • 세계 이해: 비디오·이미지의 캡셔닝, 시간적 이벤트, 다음 액션, 공간 그라운딩, 물리적 인과관계
  • 세계 생성: 텍스트·이미지·비디오·액션 입력으로 이미지, 비디오, 동기화 사운드, 액션 조건부 롤아웃 생성
  • 액션 모델링: 정책 액션 예측, 역 동역학 모델, 다양한 로봇 형태 지원

생성 사양

  • 해상도: 256×256~1280×720
  • 화면비: 4:3, 1:1, 16:9, 9:16
  • 프레임 레이트: 10, 16, 24, 30 FPS
  • 프레임 수: 5~300
  • GPU: NVIDIA Ampere, Hopper, Blackwell

누가, 어떤 경우에 쓰면 좋을까

  • 로보틱스 연구자: 물리 세계를 시뮬레이션해 로봇 훈련 데이터를 생성하거나 정책을 학습할 때
  • 자율주행 팀: 다양한 시나리오의 합성 주행 데이터 생성 및 엣지 케이스 테스트
  • Physical AI 스타트업: 실제 하드웨어 없이 세계 모델로 알고리즘을 검증할 때

라이선스

NVIDIA Cosmos License — 비상업적 연구 및 일부 상업적 용도 허용 (별도 약관 확인 필요).

참고 자료

관련 문서



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)