Nemotron 3 Ultra는 NVIDIA가 공개한 대형 언어 모델(LLM)로, Nemotron 3 시리즈(Nano Omni, Super, Ultra) 중 최상위 모델이다. 추론 속도 최적화를 핵심 설계 목표로 두면서도 높은 지능 벤치마크를 유지해 속도 대비 성능 파레토 프런티어(Pareto frontier)에 위치한다. 오픈 모델로 공개되어 누구나 로컬 또는 클라우드 환경에서 활용할 수 있다.
주요 특징
추론 속도
Nemotron 3 Ultra는 BlackBox AI에 배포된 기준으로 초당 400토큰 이상의 속도를 기록한다. 모든 턴(turn) 제한 조건에서 최고 속도를 나타내며, 지능 대비 태스크당 처리 시간에서 파레토 프런티어에 위치한다.
토큰 효율성
Nemotron 3 Super보다 약 100만 토큰 적은 출력으로 동일한 Artificial Analysis Intelligence Index를 수행한다. 모델 크기가 더 큼에도 불구하고 불필요한 장황함(verbosity)을 줄여 비용 효율이 높다.
품질 지표
| 벤치마크 | 점수 | 비고 |
|---|---|---|
| AA-Omniscience Non-Hallucination | 71% | 모르는 질문에 답하지 않는 경향이 높음 |
| GDPval-AA (Elo) | 1,378 | DeepSeek V4 Flash와 유사한 수준 |
| CritPt (대학원 물리 연구) | 3% | Nemotron 3 Super와 동일 |
Nemotron 3 시리즈 비교
| 모델 | 특징 |
|---|---|
| Nemotron 3 Nano Omni | 경량·멀티모달(텍스트·이미지·영상·오디오) |
| Nemotron 3 Super | 균형 잡힌 성능과 속도 |
| Nemotron 3 Ultra | 최고 속도, 최고 지능, 오픈 공개 |
사용 대상
- 실시간 서비스 개발자: 낮은 레이턴시가 필요한 챗봇·에이전트 응용
- 비용 민감 워크플로: 긴 출력보다 정밀한 답변이 필요한 태스크
- 연구자: 오픈 가중치로 파인튜닝·실험이 필요한 경우
시작하기
Nemotron 3 Ultra는 Ollama를 통해 로컬 실행이 가능하다.
ollama run nemotron3-ultra관련 문서
- nemotron-3-nano-omni — Nemotron 3 Nano Omni, 경량 멀티모달 에이전트 모델
참고 자료
- NVIDIA Nemotron 3 Ultra released: fast, intelligent, and open — Artificial Analysis