AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Nemotron 3 Nano Omni – 텍스트·이미지·영상·오디오를 단일 모델로 처리하는 NVIDIA 경량 멀티모달 에이전트 모델

NVIDIA Nemotron 3 Nano Omni는 텍스트·이미지·비디오·오디오 입력을 단일 공유 추론 루프에서 처리하는 30B-A3B 하이브리드 MoE(Mixture-of-Experts) 모델이다. 기존 에이전트 시스템이 비전·오디오·텍스트에 별도 모델 체인을 쓰던 파편화된 구조를 단일 인식 서브에이전트로 교체하는 것이 설계 목표다.

2026년 4월 28일 공개. HuggingFace에서 BF16, FP8, NVFP4 체크포인트를 공개 제공한다.

왜 중요한가

에이전트 시스템은 화면·문서·오디오·영상·텍스트를 단일 인식-행동 루프에서 처리해야 한다. 기존 방식—비전 모델, 음성 인식 모델, LLM을 별도로 연결—은 다음 문제를 일으킨다:

  • 모달 간 컨텍스트 일관성 저하: 각 모달에서 나온 정보가 동일한 컨텍스트를 공유하지 않음
  • 추론 홉(inference hop) 증가: 모달마다 별도 API 호출 → 오케스트레이션 복잡도, 추론 비용 증가

Nemotron 3 Nano Omni는 이 두 문제를 단일 모델로 해결한다.

성능 하이라이트

태스크벤치마크Nemotron 3 Nano OmniQwen3-Omni 30B-A3B
문서 이해OCRBenchV2-En65.8
문서 이해MMLongBench-Doc57.549.5
GUIOSWorld47.429.0
영상 이해Video-MME72.270.5
영상+오디오WorldSense55.454.0
음성 인식VoiceBench89.488.8

효율성: 동일 응답성 임계값 기준으로, 멀티 문서 작업에서 경쟁 모델 대비 7.4배, 영상 작업에서 9.2배 높은 시스템 처리량.

아키텍처

하이브리드 Mamba-Transformer-MoE 백본

세 가지 핵심 구성을 인터리브:

  • Mamba 선택적 상태공간 레이어 23개: 장기 컨텍스트 처리 효율화
  • MoE 레이어 23개: 128 전문가, top-6 라우팅, 공유 전문가 포함
  • GQA(Grouped-Query Attention) 레이어 6개: 강력한 전역 상호작용 보존

비전: 동적 해상도 + Conv3D

  • C-RADIOv4-H 비전 인코더로 이미지당 1,024~13,312 비주얼 패치 (동적 해상도)
  • 고해상도 문서, 금융 표, 슬라이드, 스크린샷의 세밀한 디테일과 전체 구조를 동시에 처리
  • Conv3D 튜브릿 임베딩: 연속 두 프레임을 단일 토큰으로 융합 → 비디오 토큰 수 절반
  • EVS(Efficient Video Sampling): 인퍼런스 시 동적 프레임에서 중복 정적 토큰 제거

오디오: Parakeet 네이티브 통합

  • Parakeet-TDT-0.6B-v2 오디오 인코더, 16kHz 샘플링
  • 입력: 최대 1,200초(20분). LLM 컨텍스트로는 5시간 이상 지원
  • 음성 텍스트 변환, 장시간 오디오, 멀티모달 시간 정렬 추론 지원

주요 사용 시나리오

  1. 실제 문서 분석: 100페이지 이상의 계약서, 기술 논문, 규정 문서 분석
  2. 자동 음성 인식: 다양한 화자, 악센트, 배경 소음이 있는 장시간 오디오
  3. 장시간 오디오-영상 이해: 나레이션이 있는 화면 녹화, 회의 슬라이드, 튜토리얼
  4. 에이전트 컴퓨터 사용(GUI): 스크린샷 해석, UI 상태 모니터링, 워크플로 자동화
  5. 멀티모달 복합 추론: 텍스트·이미지·표·기타 입력을 통합한 다단계 추론

오픈소스 생태계

전체 공개 내용:

  • 모델 가중치: BF16, FP8, NVFP4 체크포인트
  • 학습 레시피: 사전학습, 사후학습(SFT, RL), 평가 파이프라인 전체
  • 배포 쿡북: vLLM, SGLang, NVIDIA TensorRT-LLM, Dynamo
  • 파인튜닝 쿡북: LoRA SFT, GRPO/MPO (NeMo RL)
  • 데이터: ~127B 멀티모달 사전학습 토큰, ~124M 사후학습 예시

로컬 실행

# Ollama
ollama run nemotron3

# llama.cpp (GGUF)
# LM Studio, Unsloth에서도 지원

NVIDIA NIM 마이크로서비스로도 제공. 주요 클라우드(AWS SageMaker, OCI, Azure) 및 추론 서비스(DeepInfra, fal.AI, Fireworks AI 등) 지원.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)