Nemotron 3 Nano Omni – 텍스트·이미지·영상·오디오를 단일 모델로 처리하는 NVIDIA 경량 멀티모달 에이전트 모델

왜 중요한가
성능 하이라이트
아키텍처
하이브리드 Mamba-Transformer-MoE 백본
비전: 동적 해상도 + Conv3D
오디오: Parakeet 네이티브 통합
주요 사용 시나리오
오픈소스 생태계
로컬 실행
관련 문서
참고 자료

NVIDIA Nemotron 3 Nano Omni는 텍스트·이미지·비디오·오디오 입력을 단일 공유 추론 루프에서 처리하는 30B-A3B 하이브리드 MoE(Mixture-of-Experts) 모델이다. 기존 에이전트 시스템이 비전·오디오·텍스트에 별도 모델 체인을 쓰던 파편화된 구조를 단일 인식 서브에이전트로 교체하는 것이 설계 목표다.

2026년 4월 28일 공개. HuggingFace에서 BF16, FP8, NVFP4 체크포인트를 공개 제공한다.

왜 중요한가

에이전트 시스템은 화면·문서·오디오·영상·텍스트를 단일 인식-행동 루프에서 처리해야 한다. 기존 방식—비전 모델, 음성 인식 모델, LLM을 별도로 연결—은 다음 문제를 일으킨다:

모달 간 컨텍스트 일관성 저하: 각 모달에서 나온 정보가 동일한 컨텍스트를 공유하지 않음
추론 홉(inference hop) 증가: 모달마다 별도 API 호출 → 오케스트레이션 복잡도, 추론 비용 증가

Nemotron 3 Nano Omni는 이 두 문제를 단일 모델로 해결한다.

성능 하이라이트

태스크	벤치마크	Nemotron 3 Nano Omni	Qwen3-Omni 30B-A3B
문서 이해	OCRBenchV2-En	65.8	—
문서 이해	MMLongBench-Doc	57.5	49.5
GUI	OSWorld	47.4	29.0
영상 이해	Video-MME	72.2	70.5
영상+오디오	WorldSense	55.4	54.0
음성 인식	VoiceBench	89.4	88.8

효율성: 동일 응답성 임계값 기준으로, 멀티 문서 작업에서 경쟁 모델 대비 7.4배, 영상 작업에서 9.2배 높은 시스템 처리량.

아키텍처

하이브리드 Mamba-Transformer-MoE 백본

세 가지 핵심 구성을 인터리브:

Mamba 선택적 상태공간 레이어 23개: 장기 컨텍스트 처리 효율화
MoE 레이어 23개: 128 전문가, top-6 라우팅, 공유 전문가 포함
GQA(Grouped-Query Attention) 레이어 6개: 강력한 전역 상호작용 보존

비전: 동적 해상도 + Conv3D

C-RADIOv4-H 비전 인코더로 이미지당 1,024~13,312 비주얼 패치 (동적 해상도)
고해상도 문서, 금융 표, 슬라이드, 스크린샷의 세밀한 디테일과 전체 구조를 동시에 처리
Conv3D 튜브릿 임베딩: 연속 두 프레임을 단일 토큰으로 융합 → 비디오 토큰 수 절반
EVS(Efficient Video Sampling): 인퍼런스 시 동적 프레임에서 중복 정적 토큰 제거

오디오: Parakeet 네이티브 통합

Parakeet-TDT-0.6B-v2 오디오 인코더, 16kHz 샘플링
입력: 최대 1,200초(20분). LLM 컨텍스트로는 5시간 이상 지원
음성 텍스트 변환, 장시간 오디오, 멀티모달 시간 정렬 추론 지원

주요 사용 시나리오

실제 문서 분석: 100페이지 이상의 계약서, 기술 논문, 규정 문서 분석
자동 음성 인식: 다양한 화자, 악센트, 배경 소음이 있는 장시간 오디오
장시간 오디오-영상 이해: 나레이션이 있는 화면 녹화, 회의 슬라이드, 튜토리얼
에이전트 컴퓨터 사용(GUI): 스크린샷 해석, UI 상태 모니터링, 워크플로 자동화
멀티모달 복합 추론: 텍스트·이미지·표·기타 입력을 통합한 다단계 추론

오픈소스 생태계

전체 공개 내용:

모델 가중치: BF16, FP8, NVFP4 체크포인트
학습 레시피: 사전학습, 사후학습(SFT, RL), 평가 파이프라인 전체
배포 쿡북: vLLM, SGLang, NVIDIA TensorRT-LLM, Dynamo
파인튜닝 쿡북: LoRA SFT, GRPO/MPO (NeMo RL)
데이터: ~127B 멀티모달 사전학습 토큰, ~124M 사후학습 예시

로컬 실행

# Ollama
ollama run nemotron3

# llama.cpp (GGUF)
# LM Studio, Unsloth에서도 지원

NVIDIA NIM 마이크로서비스로도 제공. 주요 클라우드(AWS SageMaker, OCI, Azure) 및 추론 서비스(DeepInfra, fal.AI, Fireworks AI 등) 지원.

참고 자료

NVIDIA Nemotron 3 Nano Omni Powers Multimodal Agent Reasoning — NVIDIA Developer Blog (2026-04-28)
Introducing NVIDIA Nemotron 3 Nano Omni — HuggingFace Blog (2026-04-28)
Nemotron 3 Nano Omni Technical Report — arXiv

Like?

AI Sparkup