AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

NVIDIA, 에이전트 AI 특화 모델 Nemotron 3 공개: 10조 토큰 데이터까지 오픈소스로

칩 회사로 알려진 NVIDIA가 본격적인 AI 모델 제조사로 나섰습니다. 그런데 왜 하필 지금일까요?

사진 출처: NVIDIA Developer Blog

NVIDIA가 Nemotron 3 모델 패밀리를 발표했습니다. 에이전트 AI 시스템을 위해 특별히 설계된 이 모델은 Nano(30억), Super(1000억), Ultra(5000억) 세 가지 크기로 제공되며, 모델뿐 아니라 10조 토큰 규모의 학습 데이터와 전체 학습 레시피까지 완전히 공개한다는 점이 특징입니다. 단순히 좋은 모델을 만들었다는 것 이상의 의미가 있는 발표입니다.

출처: Inside NVIDIA Nemotron 3: Techniques, Tools, and Data That Make It Efficient and Accurate – NVIDIA Developer Blog

왜 칩 회사가 모델을 만드나

NVIDIA의 이번 행보는 전략적 방어에 가깝습니다. OpenAI, Google, Anthropic 같은 주요 고객사들이 자체 칩 개발에 나서면서 NVIDIA의 입지가 흔들리고 있거든요. 게다가 중국 기업들이 DeepSeek, Alibaba, Moonshot AI 같은 강력한 오픈소스 모델을 계속 내놓으면서, Hugging Face 데이터를 보면 중국 오픈소스 모델들이 압도적인 점유율을 차지하고 있습니다.

미국 기업들은 점점 더 비공개 전략으로 가는데, NVIDIA는 정반대로 움직입니다. Meta가 Llama를 공개한 이후 향후 릴리스는 오픈소스가 아닐 수도 있다고 시사한 상황에서, NVIDIA는 학습 데이터까지 모두 공개하는 극단적인 투명성 전략을 택했습니다.

에이전트를 위한 기술적 선택

Nemotron 3의 핵심은 “대화하는 AI”가 아니라 “행동하는 AI”를 만들기 위한 설계입니다. 기존 챗봇은 한 번의 질문에 한 번의 답변을 잘하면 됐지만, 에이전트는 다릅니다. 정보를 검색하고, 계획을 세우고, 도구를 실행하고, 결과를 검증하는 일련의 행동을 해내야 하죠.

Nemotron 3 하이브리드 아키텍처 다이어그램
사진 출처: NVIDIA Developer Blog

이를 위해 NVIDIA는 세 가지 아키텍처를 하나로 합쳤습니다. Mamba 레이어는 긴 시퀀스를 효율적으로 추적하고, Transformer 레이어는 정밀한 추론을 담당하며, MoE(전문가 혼합) 라우팅은 필요한 전문가만 활성화해서 계산 비용을 줄입니다. 결과적으로 같은 성능을 내면서도 훨씬 빠른 처리 속도를 얻었습니다.

특히 강화학습 방식의 학습이 흥미롭습니다. NVIDIA는 NeMo Gym이라는 오픈소스 라이브러리를 만들어, 여러 시뮬레이션 환경에서 모델이 실제로 “행동”하도록 훈련시켰습니다. 올바른 도구를 호출하고, 작동하는 코드를 작성하고, 여러 단계로 이루어진 계획을 완수하는 식이죠. 단순히 그럴듯한 답변을 생성하는 게 아니라, 실제로 작동하는 결과를 만들어내도록 보상과 패널티를 주며 학습한 겁니다.

100만 토큰이라는 긴 컨텍스트 윈도우도 에이전트를 위한 선택입니다. 거대한 코드베이스 전체, 긴 문서 여러 개, 확장된 대화 기록, 검색해온 자료 뭉치를 한꺼번에 처리할 수 있습니다. 기존처럼 조각조각 나눠서 처리하지 않아도 되니, 맥락을 잃지 않고 일관된 판단을 내릴 수 있죠.

완전 공개의 의도

NVIDIA가 공개한 건 모델만이 아닙니다. 거의 10조 토큰에 달하는 사전학습 데이터셋, 1300만 샘플의 후속 학습 데이터, 강화학습 환경과 데이터셋, 그리고 학습 과정 전체를 재현할 수 있는 레시피까지 모두 공개했습니다. 심지어 NVFP4라는 4비트 부동소수점 포맷의 학습 기법까지 상세히 공유했어요.

이런 투명성은 단순한 선의가 아닙니다. 오픈소스 생태계가 번창해야 더 많은 개발자들이 NVIDIA 칩을 쓰니까요. 중국이 자국산 칩과 오픈소스 모델을 결합하려는 움직임에 대응하려면, 미국 진영에서도 강력한 오픈소스 대안이 필요합니다. Nemotron 3는 그 역할을 자처하는 겁니다.

Kari Ann Briski NVIDIA 부사장은 오픈 모델이 중요한 이유로 세 가지를 꼽았습니다. 특정 작업에 맞게 커스터마이징할 수 있고, 다른 모델들과 조합해서 쓸 수 있으며, 학습 후에도 추가적인 추론 기법을 적용해 더 똑똑한 응답을 끌어낼 수 있다는 점이죠.

이중 전략의 시작

NVIDIA는 이제 칩만 파는 회사가 아닙니다. 모델도 만들고, 데이터도 제공하고, 학습 인프라도 갖춘 종합 AI 플랫폼 기업으로 변신하고 있습니다. 고객사들이 자체 칩을 개발하더라도, 오픈소스 생태계에서 NVIDIA의 영향력이 크다면 여전히 NVIDIA 하드웨어로 돌아올 가능성이 있으니까요.

당장 사용 가능한 Nemotron 3 Nano는 Artificial Analysis Intelligence Index에서 동급 모델 중 최고 점수를 기록했습니다. vLLM, SGLang, TensorRT-LLM 같은 주요 추론 엔진용 쿡북도 제공되어 바로 배포할 수 있습니다. Super와 Ultra는 2026년 상반기에 출시될 예정이며, 잠재적 MoE와 다중 토큰 예측 같은 더 고급 기술을 선보일 계획입니다.

오픈소스 AI 생태계는 이제 중국 모델들만의 무대가 아닙니다. NVIDIA의 본격 참전으로 새로운 경쟁 구도가 형성될 것 같습니다.

참고자료: Nvidia Becomes a Major Model Maker With Nemotron 3 – WIRED


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다