AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

NVIDIA XR AI – AR 글래스와 XR 기기를 위한 멀티모달 AI 에이전트 프레임워크

NVIDIA XR AI는 AR 글래스, AI 글래스, XR 헤드셋에서 들어오는 실시간 카메라·마이크·센서 스트림을 GPU 가속 AI 서비스와 연결하는 오픈소스 프레임워크다. 현장 작업자가 보는 장면을 AI 에이전트가 이해하고, 음성 의도를 해석하고, 기업 도구를 호출하고, 같은 XR 세션 안에서 응답하게 만드는 것이 목표다.

아키텍처

XR AI의 중심에는 XR Media Hub가 있다. XR 기기에서 들어오는 카메라 프레임, 마이크 오디오, 디바이스 데이터가 허브로 들어오고, 에이전트는 필요한 경우에만 이미지·음성·메타데이터를 가져와 모델과 도구에 전달한다.

구성 요소역할
XR Media Hub라이브 미디어 스트림 라우팅
NVIDIA Cosmos시각적 grounding과 VLM 추론
Nemotron 모델언어 이해, 추론, 도구 호출
MCP 서버기업 데이터·업무 시스템 연결
NeMo Agent Toolkit모델·도구·워크플로 오케스트레이션
CloudXR필요한 경우 3D 공간 콘텐츠 렌더링

이 구조는 미디어 전송, 모델 서비스, 도구 접근, 에이전트 오케스트레이션, 클라이언트 전달을 분리한다. 덕분에 모델, MCP 서버, XR 클라이언트, 배포 위치를 바꿔도 전체 애플리케이션을 다시 만들 필요가 적다.

왜 XR에 에이전트가 필요한가

XR 기기는 현장 상황을 실시간으로 볼 수 있지만, 개발자는 카메라 스트림, 음성 인식, 비전 언어 모델, 기업 데이터, 도구 호출, 기기별 런타임을 직접 이어 붙여야 한다. XR AI는 이 반복 인프라를 공통 계층으로 제공한다.

적용 예시는 다음과 같다:

  • 제조 현장 엔지니어가 설비를 보면서 정비 절차와 부품 정보를 확인
  • 의료·연구 작업자가 양손을 쓰면서 실험 절차와 장비 정보를 조회
  • 교육·훈련 환경에서 실제 장면을 기반으로 단계별 피드백 제공
  • 현장 작업 증거를 시각적으로 캡처하고 검색 가능한 지식으로 보존

시작 흐름

공개 베타 저장소는 샘플 에이전트, 모델 서버, MCP 서버, 웹 클라이언트, XR 워크플로를 포함한다.

git clone https://github.com/NVIDIA/xr-ai.git
cd xr-ai

큰 예제는 agent-samples/model-servers에서 공유 AI 서비스를 먼저 띄운 뒤, simple-vlm-example 같은 센서 우선 에이전트를 실행한다. 모델 계층은 llm, agent_llm, vlm, stt, tts 같은 논리 서비스명으로 추상화돼 있어 OpenAI 호환 API나 클라우드 모델로 교체할 수 있다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)