자기회귀(autoregressive, AR) LLM은 토큰을 하나씩 생성하므로 작은 배치나 지연 시간 민감 서비스에서 GPU 계산 능력을 충분히 활용하기 어렵다. Nemotron-Labs Diffusion은 기존 AR 사용 방식과 확산(diffusion) 병렬 생성을 같은 모델에 담아 이 병목을 줄이려는 NVIDIA의 모델 패밀리다. NVIDIA는 8B 모델에서 Qwen3 8B 대비 평균 정확도 1.2% 향상과 자기 투기(self-speculation) 모드 최대 6.4배 토큰/포워드패스 효율을 보고했다.
모델 라인업과 공개 범위
| 모델 | 용도 | 라이선스 |
|---|---|---|
| 3B, 8B, 14B 텍스트 모델 | base 및 instruction-tuned 생성 | NVIDIA Nemotron Open Model License |
| 8B VLM | 시각-언어 연구 | NVIDIA Source Code License |
학습 레시피는 NVIDIA Megatron Bridge 저장소에 공개되어 있다.
한 모델의 세 생성 모드
| 모드 | 작동 방식 | 적합한 경우 |
|---|---|---|
| AR | 왼쪽에서 오른쪽으로 순차 생성 | 기존 서빙과의 호환성·기준선 |
| Diffusion | 토큰 블록을 만들고 반복 정제 | 처리량 우선 생성 |
| Self-speculation | 확산으로 후보를 만들고 AR로 검증 | 품질을 유지하며 가속 |
확산 모드는 이미 생성한 토큰을 정제할 수 있어 fill-in-the-middle이나 문장 수정 같은 작업에도 자연스럽다. 자기 투기 모드는 같은 체크포인트가 초안을 만들고 검증하므로 별도 드래프터 모델이 필요하지 않다.
성능과 배포 상태
공개 글의 8B 비교에서 확산 모드는 AR 대비 2.6배, 선형 자기 투기는 6배, 이차 자기 투기는 6.4배 높은 tokens per forward pass를 기록했다. SGLang 통합은 글 게시 시점인 2026년 5월 23일 기준 main branch 병합 전이며, 관련 pull request를 통해 inference 지원이 진행 중이다.
동일 체크포인트
-> ar_mode: 정확성 기준선
-> FastDiffuser: 32-token 블록 정제
-> LinearSpec: 확산 초안 + 인과 검증언제 살펴볼 만한가
- 낮은 지연 시간으로 로컬 또는 서버 LLM을 제공하는 추론 엔지니어
- 확산 기반 생성과 투기적 디코딩을 비교하는 연구자
- 코드 보완이나 편집처럼 생성 후 수정 능력이 유용한 애플리케이션 개발자
관련 문서
- i-dlm – 내성적 스트라이드 디코딩으로 AR 수준 품질을 겨냥한 확산 언어 모델
- dflash – 별도 확산 드래프터를 이용한 투기적 디코딩
- inference-caching – 추론 지연 시간과 비용을 줄이는 캐시 전략
참고 자료
- Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models – NVIDIA / Hugging Face (2026-05-23)