NVIDIA Cosmos는 로봇, 자율주행, 스마트 인프라 등 Physical AI 시스템 개발을 위한 오픈 플랫폼이다. 세계 모델(World Model), 데이터셋, 도구를 통합 제공하며, 최신 버전인 Cosmos 3는 언어·이미지·비디오·사운드·액션을 단일 아키텍처로 처리하는 옴니모달 세계 모델이다.
Cosmos 3 아키텍처
Cosmos 3는 Mixture-of-Transformers(MoT) 아키텍처 기반이다. 두 가지 처리 경로를 하나의 모델에서 지원한다:
| 모드 | 입력 | 출력 | 사용 사례 |
|---|---|---|---|
| Reasoner | 텍스트, 비전 | 텍스트 | 세계 이해, 물리 추론, 작업 계획, 액션 예측 |
| Generator | 텍스트, 비전, 사운드, 액션 | 비전, 사운드, 액션 | 세계 생성, 시뮬레이션, 미래 예측, 합성 데이터 |
Reasoner 모드는 인과적 자기주의(causal self-attention)로 다음 토큰 예측에 최적화되고, Generator 모드는 완전 주의(full attention)로 노이즈 제거(diffusion) 방식의 멀티모달 생성에 최적화된다. 두 모드는 동일한 트랜스포머 아키텍처, 3D mRoPE 위치 임베딩을 공유한다.
모델 패밀리
| 모델 | 크기 | 주요 기능 |
|---|---|---|
| Cosmos3-Nano | 16B | 콤팩트 옴니모달 세계 모델 |
| Cosmos3-Super | 64B | 최전선급 옴니모달 세계 모델 |
| Cosmos3-Super-Text2Image | 64B | 고품질 텍스트→이미지 생성 |
| Cosmos3-Super-Image2Video | 64B | 시간적 일관성 있는 이미지→비디오 생성 |
| Cosmos3-Nano-Policy-DROID | 16B | DROID 조작 로봇 비전-언어 정책 |
주요 기능
- 세계 이해: 비디오·이미지의 캡셔닝, 시간적 이벤트, 다음 액션, 공간 그라운딩, 물리적 인과관계
- 세계 생성: 텍스트·이미지·비디오·액션 입력으로 이미지, 비디오, 동기화 사운드, 액션 조건부 롤아웃 생성
- 액션 모델링: 정책 액션 예측, 역 동역학 모델, 다양한 로봇 형태 지원
생성 사양
- 해상도: 256×256~1280×720
- 화면비: 4:3, 1:1, 16:9, 9:16
- 프레임 레이트: 10, 16, 24, 30 FPS
- 프레임 수: 5~300
- GPU: NVIDIA Ampere, Hopper, Blackwell
누가, 어떤 경우에 쓰면 좋을까
- 로보틱스 연구자: 물리 세계를 시뮬레이션해 로봇 훈련 데이터를 생성하거나 정책을 학습할 때
- 자율주행 팀: 다양한 시나리오의 합성 주행 데이터 생성 및 엣지 케이스 테스트
- Physical AI 스타트업: 실제 하드웨어 없이 세계 모델로 알고리즘을 검증할 때
라이선스
NVIDIA Cosmos License — 비상업적 연구 및 일부 상업적 용도 허용 (별도 약관 확인 필요).
참고 자료
- NVIDIA/cosmos — GitHub 공식 저장소
- Cosmos Website — NVIDIA
관련 문서
- locate-anything — NVIDIA의 시각 그라운딩 연구 LocateAnything