NVIDIA XR AI – AR 글래스와 XR 기기를 위한 멀티모달 AI 에이전트 프레임워크

아키텍처
왜 XR에 에이전트가 필요한가
시작 흐름
관련 문서
참고 자료

NVIDIA XR AI는 AR 글래스, AI 글래스, XR 헤드셋에서 들어오는 실시간 카메라·마이크·센서 스트림을 GPU 가속 AI 서비스와 연결하는 오픈소스 프레임워크다. 현장 작업자가 보는 장면을 AI 에이전트가 이해하고, 음성 의도를 해석하고, 기업 도구를 호출하고, 같은 XR 세션 안에서 응답하게 만드는 것이 목표다.

아키텍처

XR AI의 중심에는 XR Media Hub가 있다. XR 기기에서 들어오는 카메라 프레임, 마이크 오디오, 디바이스 데이터가 허브로 들어오고, 에이전트는 필요한 경우에만 이미지·음성·메타데이터를 가져와 모델과 도구에 전달한다.

구성 요소	역할
XR Media Hub	라이브 미디어 스트림 라우팅
NVIDIA Cosmos	시각적 grounding과 VLM 추론
Nemotron 모델	언어 이해, 추론, 도구 호출
MCP 서버	기업 데이터·업무 시스템 연결
NeMo Agent Toolkit	모델·도구·워크플로 오케스트레이션
CloudXR	필요한 경우 3D 공간 콘텐츠 렌더링

이 구조는 미디어 전송, 모델 서비스, 도구 접근, 에이전트 오케스트레이션, 클라이언트 전달을 분리한다. 덕분에 모델, MCP 서버, XR 클라이언트, 배포 위치를 바꿔도 전체 애플리케이션을 다시 만들 필요가 적다.

왜 XR에 에이전트가 필요한가

XR 기기는 현장 상황을 실시간으로 볼 수 있지만, 개발자는 카메라 스트림, 음성 인식, 비전 언어 모델, 기업 데이터, 도구 호출, 기기별 런타임을 직접 이어 붙여야 한다. XR AI는 이 반복 인프라를 공통 계층으로 제공한다.

적용 예시는 다음과 같다:

제조 현장 엔지니어가 설비를 보면서 정비 절차와 부품 정보를 확인
의료·연구 작업자가 양손을 쓰면서 실험 절차와 장비 정보를 조회
교육·훈련 환경에서 실제 장면을 기반으로 단계별 피드백 제공
현장 작업 증거를 시각적으로 캡처하고 검색 가능한 지식으로 보존

시작 흐름

공개 베타 저장소는 샘플 에이전트, 모델 서버, MCP 서버, 웹 클라이언트, XR 워크플로를 포함한다.

git clone https://github.com/NVIDIA/xr-ai.git
cd xr-ai

큰 예제는 agent-samples/model-servers에서 공유 AI 서비스를 먼저 띄운 뒤, simple-vlm-example 같은 센서 우선 에이전트를 실행한다. 모델 계층은 llm, agent_llm, vlm, stt, tts 같은 논리 서비스명으로 추상화돼 있어 OpenAI 호환 API나 클라우드 모델로 교체할 수 있다.

참고 자료

Building AI Agents for AR Glasses and XR Devices with NVIDIA XR AI — NVIDIA Technical Blog (2026-06-16)
NVIDIA/xr-ai — GitHub 공식 저장소

Like?

AI Sparkup

NVIDIA XR AI – AR 글래스와 XR 기기를 위한 멀티모달 AI 에이전트 프레임워크

아키텍처

왜 XR에 에이전트가 필요한가

시작 흐름

관련 문서

참고 자료

AI Sparkup 구독하기