로봇에게 “냄비를 집어서 왼쪽으로 옮겨”라고 지시할 때, 진짜 어려운 부분은 명령을 이해하는 게 아닙니다. 그 공간이 어떻게 생겼는지, 물건을 집을 때 어떤 힘이 필요한지, 다음 순간 무슨 일이 일어날지를 이해하는 것이죠. 물리 세계를 이해하지 못한 AI는 명령을 받아도 행동을 만들어낼 수 없습니다.

NVIDIA가 GTC Taipei에서 Cosmos 3를 공개했습니다. 물리 AI(Physical AI)를 위한 오픈 파운데이션 모델로, 장면 이해·영상 생성·행동 예측을 하나의 모델 안에서 처리합니다. 모델 가중치, 학습 스크립트, 합성 데이터셋까지 모두 오픈소스로 공개됐습니다.
출처: Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3 – NVIDIA Technical Blog
왜 단일 모델이 중요한가
기존 Cosmos 시리즈는 역할별로 모델이 분리돼 있었습니다. 세계 영상을 생성하는 모델, 장면을 이해하는 모델, 로봇 행동을 만들어내는 정책 모델이 각각 따로 존재했고, 개발자는 이것들을 직접 연결해 파이프라인을 구성해야 했습니다.
Cosmos 3은 이 구조를 Mixture-of-Transformers(MoT) 아키텍처로 통합합니다. 핵심은 두 개의 타워입니다.
- 추론 타워(Reasoner) — 이미지·영상·텍스트를 입력받아 물체의 움직임, 상호작용, 공간 관계를 파악합니다. 자동회귀 방식으로 작동하며, 생성이 일어나기 전 먼저 세계를 이해하는 ‘뇌’ 역할을 합니다.
- 생성 타워(Generator) — 추론 타워의 이해를 바탕으로 물리 법칙에 맞는 영상이나 행동 시퀀스를 만들어냅니다. 디퓨전 방식을 사용하며, 항상 추론 타워와 함께 작동합니다.
두 타워는 각 트랜스포머 레이어 안에서 별도의 파라미터를 쓰지만, 어텐션은 공유해 서로 정보를 주고받습니다. 덕분에 아키텍처 변경 없이 하나의 모델이 VLM으로도, 영상 생성기로도, 로봇 정책 모델로도 작동할 수 있습니다.
세 가지 활용 모드
Cosmos 3은 용도에 따라 세 가지 방식으로 쓸 수 있습니다.
장면 이해 모드(VLM) — 영상을 입력하면 텍스트로 분석 결과를 돌려줍니다. 스마트시티 교통 이상 감지나 창고 안전 모니터링처럼, 카메라 피드에서 이상 상황을 탐지하는 데 활용됩니다.
세계 모델 모드 — 현재 상황을 보고 앞으로 일어날 일을 영상으로 생성합니다. 자율주행 학습에서 실제 도로에서 재현하기 어려운 아찔한 상황이나 희귀 날씨 조건을 합성 데이터로 만들 때 특히 유용합니다.
행동 모델 모드 — 영상 입력에서 관절 각도나 그리퍼 위치 같은 구체적인 수치 데이터를 출력합니다. 로봇이 시연 영상을 보고 동작을 학습하거나, 다음에 취해야 할 행동 시퀀스를 예측하는 데 쓰입니다.
오픈소스로 공개된 것들
모델 가중치 외에도 상당한 규모의 자료가 함께 공개됐습니다. 두 가지 크기로 나뉩니다. 16B 파라미터의 Cosmos 3 Nano는 RTX PRO 6000급 워크스테이션에서 실시간 추론이 가능하고, 64B 파라미터의 Cosmos 3 Super는 데이터센터 GPU(Hopper·Blackwell)에서 대규모 합성 데이터 생성에 적합합니다.
데이터셋도 여섯 종류가 공개됐습니다. 로봇 조작, 물리 상호작용, 공간 추론, 디지털 휴먼, 자율주행, 창고 환경을 각각 커버합니다. 학습 레시피(SFT 파인튜닝 코드·설정 파일)도 GitHub에 올라와 있어 자체 도메인에 맞춰 Cosmos 3를 재학습할 수 있습니다.
배포 면에서는 NVIDIA NIM 마이크로서비스를 통한 추론 서버 옵션도 제공됩니다. 현재 Reasoner NIM이 먼저 출시됐고, Generator NIM은 추후 공개 예정입니다.
물리 AI 생태계를 향한 포석
Cosmos 3의 공개는 단순한 모델 업데이트가 아닙니다. NVIDIA는 이번에 Black Forest Labs, Runway, Agile Robots, Skild AI 등이 참여하는 ‘Cosmos Coalition’도 함께 발표했습니다. DGX Cloud 학습 인프라를 사용하는 대신 모델과 데이터를 기여하는 파트너십 구조입니다.
물리 AI 개발에서 가장 큰 병목은 현실 데이터 부족입니다. 실제 로봇이나 차량으로 데이터를 수집하는 데는 시간·비용·안전 문제가 따라오죠. Cosmos 3처럼 물리 법칙을 이해하는 세계 모델이 합성 데이터 생성의 품질을 높일수록, 로봇 학습에 필요한 현실 데이터의 의존도를 낮출 수 있습니다. NVIDIA가 이 모델을 오픈소스로 푼 배경에는, 생태계 전체가 고품질 합성 데이터를 쓸수록 자사 학습 인프라 수요도 함께 커진다는 계산도 있을 겁니다.
참고자료:
- Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action – Hugging Face Blog
- Nvidia bets big on physical AI at GTC Taipei – The Decoder

답글 남기기