AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Nemotron-Labs Diffusion – AR 호환성과 병렬 생성을 결합한 NVIDIA 확산 언어 모델

자기회귀(autoregressive, AR) LLM은 토큰을 하나씩 생성하므로 작은 배치나 지연 시간 민감 서비스에서 GPU 계산 능력을 충분히 활용하기 어렵다. Nemotron-Labs Diffusion은 기존 AR 사용 방식과 확산(diffusion) 병렬 생성을 같은 모델에 담아 이 병목을 줄이려는 NVIDIA의 모델 패밀리다. NVIDIA는 8B 모델에서 Qwen3 8B 대비 평균 정확도 1.2% 향상과 자기 투기(self-speculation) 모드 최대 6.4배 토큰/포워드패스 효율을 보고했다.

모델 라인업과 공개 범위

모델용도라이선스
3B, 8B, 14B 텍스트 모델base 및 instruction-tuned 생성NVIDIA Nemotron Open Model License
8B VLM시각-언어 연구NVIDIA Source Code License

학습 레시피는 NVIDIA Megatron Bridge 저장소에 공개되어 있다.

한 모델의 세 생성 모드

모드작동 방식적합한 경우
AR왼쪽에서 오른쪽으로 순차 생성기존 서빙과의 호환성·기준선
Diffusion토큰 블록을 만들고 반복 정제처리량 우선 생성
Self-speculation확산으로 후보를 만들고 AR로 검증품질을 유지하며 가속

확산 모드는 이미 생성한 토큰을 정제할 수 있어 fill-in-the-middle이나 문장 수정 같은 작업에도 자연스럽다. 자기 투기 모드는 같은 체크포인트가 초안을 만들고 검증하므로 별도 드래프터 모델이 필요하지 않다.

성능과 배포 상태

공개 글의 8B 비교에서 확산 모드는 AR 대비 2.6배, 선형 자기 투기는 6배, 이차 자기 투기는 6.4배 높은 tokens per forward pass를 기록했다. SGLang 통합은 글 게시 시점인 2026년 5월 23일 기준 main branch 병합 전이며, 관련 pull request를 통해 inference 지원이 진행 중이다.

동일 체크포인트
 -> ar_mode: 정확성 기준선
 -> FastDiffuser: 32-token 블록 정제
 -> LinearSpec: 확산 초안 + 인과 검증

언제 살펴볼 만한가

  • 낮은 지연 시간으로 로컬 또는 서버 LLM을 제공하는 추론 엔지니어
  • 확산 기반 생성과 투기적 디코딩을 비교하는 연구자
  • 코드 보완이나 편집처럼 생성 후 수정 능력이 유용한 애플리케이션 개발자

관련 문서

  • i-dlm – 내성적 스트라이드 디코딩으로 AR 수준 품질을 겨냥한 확산 언어 모델
  • dflash – 별도 확산 드래프터를 이용한 투기적 디코딩
  • inference-caching – 추론 지연 시간과 비용을 줄이는 캐시 전략

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)