NVIDIA Cosmos – Physical AI를 위한 세계 모델 오픈 플랫폼

Cosmos 3 아키텍처
모델 패밀리
주요 기능
생성 사양
누가, 어떤 경우에 쓰면 좋을까
라이선스
참고 자료
관련 문서

NVIDIA Cosmos는 로봇, 자율주행, 스마트 인프라 등 Physical AI 시스템 개발을 위한 오픈 플랫폼이다. 세계 모델(World Model), 데이터셋, 도구를 통합 제공하며, 최신 버전인 Cosmos 3는 언어·이미지·비디오·사운드·액션을 단일 아키텍처로 처리하는 옴니모달 세계 모델이다.

Cosmos 3 아키텍처

Cosmos 3는 Mixture-of-Transformers(MoT) 아키텍처 기반이다. 두 가지 처리 경로를 하나의 모델에서 지원한다:

모드	입력	출력	사용 사례
Reasoner	텍스트, 비전	텍스트	세계 이해, 물리 추론, 작업 계획, 액션 예측
Generator	텍스트, 비전, 사운드, 액션	비전, 사운드, 액션	세계 생성, 시뮬레이션, 미래 예측, 합성 데이터

Reasoner 모드는 인과적 자기주의(causal self-attention)로 다음 토큰 예측에 최적화되고, Generator 모드는 완전 주의(full attention)로 노이즈 제거(diffusion) 방식의 멀티모달 생성에 최적화된다. 두 모드는 동일한 트랜스포머 아키텍처, 3D mRoPE 위치 임베딩을 공유한다.

모델 패밀리

모델	크기	주요 기능
Cosmos3-Nano	16B	콤팩트 옴니모달 세계 모델
Cosmos3-Super	64B	최전선급 옴니모달 세계 모델
Cosmos3-Super-Text2Image	64B	고품질 텍스트→이미지 생성
Cosmos3-Super-Image2Video	64B	시간적 일관성 있는 이미지→비디오 생성
Cosmos3-Nano-Policy-DROID	16B	DROID 조작 로봇 비전-언어 정책

주요 기능

세계 이해: 비디오·이미지의 캡셔닝, 시간적 이벤트, 다음 액션, 공간 그라운딩, 물리적 인과관계
세계 생성: 텍스트·이미지·비디오·액션 입력으로 이미지, 비디오, 동기화 사운드, 액션 조건부 롤아웃 생성
액션 모델링: 정책 액션 예측, 역 동역학 모델, 다양한 로봇 형태 지원

생성 사양

해상도: 256×256~1280×720
화면비: 4:3, 1:1, 16:9, 9:16
프레임 레이트: 10, 16, 24, 30 FPS
프레임 수: 5~300
GPU: NVIDIA Ampere, Hopper, Blackwell

누가, 어떤 경우에 쓰면 좋을까

로보틱스 연구자: 물리 세계를 시뮬레이션해 로봇 훈련 데이터를 생성하거나 정책을 학습할 때
자율주행 팀: 다양한 시나리오의 합성 주행 데이터 생성 및 엣지 케이스 테스트
Physical AI 스타트업: 실제 하드웨어 없이 세계 모델로 알고리즘을 검증할 때

라이선스

NVIDIA Cosmos License — 비상업적 연구 및 일부 상업적 용도 허용 (별도 약관 확인 필요).

참고 자료

NVIDIA/cosmos — GitHub 공식 저장소
Cosmos Website — NVIDIA

AI Sparkup