NVIDIA XR AI는 AR 글래스, AI 글래스, XR 헤드셋에서 들어오는 실시간 카메라·마이크·센서 스트림을 GPU 가속 AI 서비스와 연결하는 오픈소스 프레임워크다. 현장 작업자가 보는 장면을 AI 에이전트가 이해하고, 음성 의도를 해석하고, 기업 도구를 호출하고, 같은 XR 세션 안에서 응답하게 만드는 것이 목표다.
아키텍처
XR AI의 중심에는 XR Media Hub가 있다. XR 기기에서 들어오는 카메라 프레임, 마이크 오디오, 디바이스 데이터가 허브로 들어오고, 에이전트는 필요한 경우에만 이미지·음성·메타데이터를 가져와 모델과 도구에 전달한다.
| 구성 요소 | 역할 |
|---|---|
| XR Media Hub | 라이브 미디어 스트림 라우팅 |
| NVIDIA Cosmos | 시각적 grounding과 VLM 추론 |
| Nemotron 모델 | 언어 이해, 추론, 도구 호출 |
| MCP 서버 | 기업 데이터·업무 시스템 연결 |
| NeMo Agent Toolkit | 모델·도구·워크플로 오케스트레이션 |
| CloudXR | 필요한 경우 3D 공간 콘텐츠 렌더링 |
이 구조는 미디어 전송, 모델 서비스, 도구 접근, 에이전트 오케스트레이션, 클라이언트 전달을 분리한다. 덕분에 모델, MCP 서버, XR 클라이언트, 배포 위치를 바꿔도 전체 애플리케이션을 다시 만들 필요가 적다.
왜 XR에 에이전트가 필요한가
XR 기기는 현장 상황을 실시간으로 볼 수 있지만, 개발자는 카메라 스트림, 음성 인식, 비전 언어 모델, 기업 데이터, 도구 호출, 기기별 런타임을 직접 이어 붙여야 한다. XR AI는 이 반복 인프라를 공통 계층으로 제공한다.
적용 예시는 다음과 같다:
- 제조 현장 엔지니어가 설비를 보면서 정비 절차와 부품 정보를 확인
- 의료·연구 작업자가 양손을 쓰면서 실험 절차와 장비 정보를 조회
- 교육·훈련 환경에서 실제 장면을 기반으로 단계별 피드백 제공
- 현장 작업 증거를 시각적으로 캡처하고 검색 가능한 지식으로 보존
시작 흐름
공개 베타 저장소는 샘플 에이전트, 모델 서버, MCP 서버, 웹 클라이언트, XR 워크플로를 포함한다.
git clone https://github.com/NVIDIA/xr-ai.git
cd xr-ai큰 예제는 agent-samples/model-servers에서 공유 AI 서비스를 먼저 띄운 뒤, simple-vlm-example 같은 센서 우선 에이전트를 실행한다. 모델 계층은 llm, agent_llm, vlm, stt, tts 같은 논리 서비스명으로 추상화돼 있어 OpenAI 호환 API나 클라우드 모델로 교체할 수 있다.
관련 문서
- nemotron-3-nano-omni — NVIDIA 경량 멀티모달 에이전트 모델
- nvidia-agent-skills — NVIDIA 공식 에이전트 스킬 카탈로그
- mcp — Model Context Protocol
- gemini-omni — 어떤 입력에서든 영상을 만들고 편집하는 생성 모델
참고 자료
- Building AI Agents for AR Glasses and XR Devices with NVIDIA XR AI — NVIDIA Technical Blog (2026-06-16)
- NVIDIA/xr-ai — GitHub 공식 저장소