목차
NVIDIA Nemotron 3 Nano Omni는 텍스트·이미지·비디오·오디오 입력을 단일 공유 추론 루프에서 처리하는 30B-A3B 하이브리드 MoE(Mixture-of-Experts) 모델이다. 기존 에이전트 시스템이 비전·오디오·텍스트에 별도 모델 체인을 쓰던 파편화된 구조를 단일 인식 서브에이전트로 교체하는 것이 설계 목표다.
2026년 4월 28일 공개. HuggingFace에서 BF16, FP8, NVFP4 체크포인트를 공개 제공한다.
왜 중요한가
에이전트 시스템은 화면·문서·오디오·영상·텍스트를 단일 인식-행동 루프에서 처리해야 한다. 기존 방식—비전 모델, 음성 인식 모델, LLM을 별도로 연결—은 다음 문제를 일으킨다:
- 모달 간 컨텍스트 일관성 저하: 각 모달에서 나온 정보가 동일한 컨텍스트를 공유하지 않음
- 추론 홉(inference hop) 증가: 모달마다 별도 API 호출 → 오케스트레이션 복잡도, 추론 비용 증가
Nemotron 3 Nano Omni는 이 두 문제를 단일 모델로 해결한다.
성능 하이라이트
| 태스크 | 벤치마크 | Nemotron 3 Nano Omni | Qwen3-Omni 30B-A3B |
|---|---|---|---|
| 문서 이해 | OCRBenchV2-En | 65.8 | — |
| 문서 이해 | MMLongBench-Doc | 57.5 | 49.5 |
| GUI | OSWorld | 47.4 | 29.0 |
| 영상 이해 | Video-MME | 72.2 | 70.5 |
| 영상+오디오 | WorldSense | 55.4 | 54.0 |
| 음성 인식 | VoiceBench | 89.4 | 88.8 |
효율성: 동일 응답성 임계값 기준으로, 멀티 문서 작업에서 경쟁 모델 대비 7.4배, 영상 작업에서 9.2배 높은 시스템 처리량.
아키텍처
하이브리드 Mamba-Transformer-MoE 백본
세 가지 핵심 구성을 인터리브:
- Mamba 선택적 상태공간 레이어 23개: 장기 컨텍스트 처리 효율화
- MoE 레이어 23개: 128 전문가, top-6 라우팅, 공유 전문가 포함
- GQA(Grouped-Query Attention) 레이어 6개: 강력한 전역 상호작용 보존
비전: 동적 해상도 + Conv3D
- C-RADIOv4-H 비전 인코더로 이미지당 1,024~13,312 비주얼 패치 (동적 해상도)
- 고해상도 문서, 금융 표, 슬라이드, 스크린샷의 세밀한 디테일과 전체 구조를 동시에 처리
- Conv3D 튜브릿 임베딩: 연속 두 프레임을 단일 토큰으로 융합 → 비디오 토큰 수 절반
- EVS(Efficient Video Sampling): 인퍼런스 시 동적 프레임에서 중복 정적 토큰 제거
오디오: Parakeet 네이티브 통합
- Parakeet-TDT-0.6B-v2 오디오 인코더, 16kHz 샘플링
- 입력: 최대 1,200초(20분). LLM 컨텍스트로는 5시간 이상 지원
- 음성 텍스트 변환, 장시간 오디오, 멀티모달 시간 정렬 추론 지원
주요 사용 시나리오
- 실제 문서 분석: 100페이지 이상의 계약서, 기술 논문, 규정 문서 분석
- 자동 음성 인식: 다양한 화자, 악센트, 배경 소음이 있는 장시간 오디오
- 장시간 오디오-영상 이해: 나레이션이 있는 화면 녹화, 회의 슬라이드, 튜토리얼
- 에이전트 컴퓨터 사용(GUI): 스크린샷 해석, UI 상태 모니터링, 워크플로 자동화
- 멀티모달 복합 추론: 텍스트·이미지·표·기타 입력을 통합한 다단계 추론
오픈소스 생태계
전체 공개 내용:
- 모델 가중치: BF16, FP8, NVFP4 체크포인트
- 학습 레시피: 사전학습, 사후학습(SFT, RL), 평가 파이프라인 전체
- 배포 쿡북: vLLM, SGLang, NVIDIA TensorRT-LLM, Dynamo
- 파인튜닝 쿡북: LoRA SFT, GRPO/MPO (NeMo RL)
- 데이터: ~127B 멀티모달 사전학습 토큰, ~124M 사후학습 예시
로컬 실행
# Ollama
ollama run nemotron3
# llama.cpp (GGUF)
# LM Studio, Unsloth에서도 지원NVIDIA NIM 마이크로서비스로도 제공. 주요 클라우드(AWS SageMaker, OCI, Azure) 및 추론 서비스(DeepInfra, fal.AI, Fireworks AI 등) 지원.
관련 문서
- long-running-agents — 멀티모달 서브에이전트를 포함한 장기 실행 에이전트 설계
- gemini-embedding-2 — Google의 멀티모달 임베딩 모델 비교
참고 자료
- NVIDIA Nemotron 3 Nano Omni Powers Multimodal Agent Reasoning — NVIDIA Developer Blog (2026-04-28)
- Introducing NVIDIA Nemotron 3 Nano Omni — HuggingFace Blog (2026-04-28)
- Nemotron 3 Nano Omni Technical Report — arXiv