NVIDIA Nemotron 3 Nano Omni, 멀티모달 에이전트 처리량 9배 높인 방법

2026-05-01

﹒

AI 트렌드 분석

﹒

3 minutes

AI 에이전트는 지금 이 순간에도 화면을 보고, 음성을 듣고, 문서를 읽습니다. 그런데 대부분의 시스템은 이 세 가지를 각각 다른 모델에 맡깁니다. 넘기고, 기다리고, 다시 받아야 하는 구조입니다.

사진 출처: NVIDIA Blog

NVIDIA가 4월 28일 공개한 Nemotron 3 Nano Omni는 이 구조를 단일 모델로 통합하는 시도입니다. 텍스트·이미지·영상·오디오를 하나의 추론 루프 안에서 처리하며, 동일한 응답성 기준에서 기존 오픈 멀티모달 모델 대비 최대 9.2배 높은 처리량을 냈다고 NVIDIA는 밝혔습니다.

출처: Introducing NVIDIA Nemotron 3 Nano Omni – Hugging Face / NVIDIA Technical Blog

왜 멀티모달 체인이 문제인가

고객 지원 에이전트를 생각해 봅시다. 사용자가 화면 녹화와 함께 음성 메시지를 보냈습니다. 기존 시스템이라면 영상 처리 모델이 먼저 동작하고, 그 결과를 음성 인식 모델에 넘기고, 최종적으로 언어 모델이 답변을 생성합니다. 이 과정에서 지연이 쌓이고, 각 모델 사이를 이동하면서 맥락이 조금씩 잘려나갑니다.

이런 파편화 구조는 단순히 느린 것이 문제가 아닙니다. 추론 홉이 늘어날수록 모달리티 간 맥락 일관성이 깨지고, 오류가 전파될 여지도 커집니다.

하나의 루프에서 모두 처리하는 구조

Nemotron 3 Nano Omni는 30B 파라미터 규모의 하이브리드 MoE(Mixture-of-Experts) 아키텍처로 만들어졌습니다. 전체 30B 파라미터 중 추론 시 실제로 활성화되는 건 약 3B(A3B)뿐입니다. 필요한 전문가만 깨워 쓰는 방식이라 대규모 모델임에도 효율이 높습니다.

아키텍처 내부를 구성하는 요소들을 보면 왜 단일 모델이 가능한지 이해됩니다.

텍스트·이미지 처리 — Mamba 레이어와 Transformer 레이어를 혼합한 백본이 시퀀스 처리와 정밀한 추론을 동시에 담당합니다. 최대 256,000 토큰의 컨텍스트를 지원합니다.
영상 처리 — 3D 합성곱으로 프레임 간 움직임을 포착한 뒤, EVS(Efficient Video Sampling) 레이어가 고밀도 시각 토큰을 압축해 언어 모델이 소화할 수 있는 크기로 줄입니다.
오디오 처리 — Parakeet-TDT 오디오 인코더가 음성을 직접 받아들입니다. 별도의 텍스트 변환 단계 없이 음성 자체가 추론에 참여합니다.

이 세 가지 인코더가 같은 추론 루프 안에 묶여 있어, 화면·음성·문서를 동시에 보면서 통합된 맥락 위에서 답변이 생성됩니다.

처리량 9배, 실제로 어떤 의미인가

NVIDIA가 제시한 9.2배라는 수치는 단순한 속도 비교가 아닙니다. “사용자가 체감하는 응답성을 동일하게 유지한다”는 조건을 고정한 상태에서, 시스템이 얼마나 많은 동시 요청을 처리할 수 있는지를 측정한 결과입니다.

같은 응답성을 제공하면서 서버 한 대가 처리할 수 있는 에이전트 수가 9배 많다는 뜻입니다. 문서 처리 시나리오에서는 7.4배였습니다. NVIDIA는 이 차이가 아키텍처적 효율에서 비롯된다고 설명합니다. 멀티모달 인식을 단일 루프로 통합하고, 모달리티별로 필요한 전문가만 활성화하기 때문에 추론 비용이 내려가고, 같은 자원으로 더 많은 에이전트를 돌릴 수 있다는 논리입니다.

벤치마크 정확도 면에서도 전작(Nemotron Nano VL V2)과 비교해 의미 있는 도약이 있었습니다. GUI 에이전트 능력을 측정하는 OSWorld 벤치마크에서는 11.0점에서 47.4점으로 올랐고, 문서 이해(MMLongBench-Doc)에서는 38.0에서 57.5로 개선됐습니다.

학습 데이터에 담긴 흥미로운 사실

기술 리포트에는 한 가지 눈에 띄는 내용이 있습니다. 약 7,170억 토큰 규모의 학습 데이터 중 합성 데이터 상당 부분이 경쟁사 모델에서 생성됐다는 점입니다. Qwen 시리즈, OpenAI의 gpt-oss, DeepSeek-OCR, Kimi 등이 이미지 캡션, QA 쌍, 추론 경로를 만드는 데 활용됐습니다.

경쟁사 모델을 학습 데이터 생성에 쓰는 건 업계에서 드문 일이 아닙니다. 하지만 이 정도로 구체적으로 공개하는 경우는 많지 않습니다. 완전 오픈 릴리즈(가중치·데이터·학습 파이프라인 모두 공개)이기 때문에 이런 세부 사항까지 확인할 수 있습니다.

에이전트 생태계에서의 위치

NVIDIA는 Nemotron 3 Nano Omni를 독립적인 범용 모델이 아니라 에이전트 시스템 안에서 ‘인식 담당 서브에이전트’로 자리매김합니다. 복잡한 계획은 Nemotron 3 Ultra가, 빠른 실행은 Nemotron 3 Super가 맡고, Nemotron 3 Nano Omni는 보고 듣고 읽는 역할을 전담한다는 구조입니다.

현재 Palantir, Foxconn, H Company 등 여러 기업이 이미 도입했거나 평가 중이며, H Company는 1920×1080 해상도 화면 녹화를 실시간으로 처리하는 컴퓨터 사용 에이전트에 적용했다고 밝혔습니다.

모델은 Hugging Face, OpenRouter, build.nvidia.com에서 내려받을 수 있으며, 상업적 이용이 허용되는 NVIDIA Open Model Agreement 하에 공개됐습니다.

참고자료:

With Nemotron 3 Nano Omni, Nvidia reveals what really goes into a modern multimodal model – The Decoder

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

NVIDIA Nemotron 3 Nano Omni, 멀티모달 에이전트 처리량 9배 높인 방법

왜 멀티모달 체인이 문제인가

하나의 루프에서 모두 처리하는 구조

처리량 9배, 실제로 어떤 의미인가

학습 데이터에 담긴 흥미로운 사실

에이전트 생태계에서의 위치

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

NVIDIA Nemotron 3 Nano Omni, 멀티모달 에이전트 처리량 9배 높인 방법

YouTube가 영상 검색을 대화로 바꾼다, Ask YouTube 실험 시작

AI가 이미지 속 글자를 못 읽던 이유, GPT Image 2가 그걸 바꾼 방법

OpenAI 모델, 이제 AWS에서도 쓴다, Microsoft 독점 해소 후 달라진 판