I-DLM(Introspective Diffusion Language Models)은 기존 확산 언어 모델(DLM)의 고질적인 품질 열세 문제를 해결한 연구다. 내성적 스트라이드 디코딩(ISD)이라는 새 기법으로 토큰 생성과 검증을 한 번의 포워드 패스에서 동시에 수행하여, 8B 파라미터 모델이 같은 크기의 자기회귀(AR) 모델과 동등한 품질을 달성하면서 동시 처리 시 최대 4.1배 높은 처리량을 기록했다. Together AI, UIUC, Princeton, Stanford, UT Austin 공동 연구 성과다.
배경: 확산 언어 모델의 한계
자기회귀(AR) 모델은 토큰을 하나씩 순차적으로 생성하기 때문에 병렬 처리가 어렵다. 반면 확산 모델은 여러 토큰을 동시에 생성할 수 있어 이론적으로 훨씬 빠르다. 하지만 실제로는 품질이 AR 모델에 비해 현저히 낮다는 문제가 있었다.
연구팀은 그 원인을 “내성(introspection) 부재”로 진단했다. AR 모델은 학습 과정에서 생성과 검증을 동시에 학습하지만, 기존 DLM은 노이즈 제거(denoising)만 학습할 뿐 자신이 생성한 토큰을 검증하는 능력이 없다.
핵심 기법: ISD (Introspective Strided Decoding)
ISD는 한 번의 포워드 패스에서 두 가지 작업을 동시에 처리한다:
- 전진: N개의 새 토큰 생성
- 검증: 이전에 생성한 토큰을 p/q 수용 기준으로 검증
엄격한 인과적 어텐션(causal attention)을 사용하기 때문에 기존 AR 서빙 인프라(SGLang 등)에 그대로 통합할 수 있다.
성능
품질 (AR 모델과 비교)
I-DLM-8B는 같은 규모의 AR 모델과 동등한 성능을 달성했고, I-DLM-32B는 더 큰 규모인 LLaDA-2.1-mini(16B)를 크게 앞선다.
| 벤치마크 | I-DLM-8B | I-DLM-32B |
|---|---|---|
| AIME-24 | 69.6 | 83.3 |
| AIME-25 | 60.8 | 80.0 |
| MATH-500 | 96.8 | 97.6 |
| LiveCodeBench-v6 | 45.7 | 57.1 |
| MMLU | 82.4 | 86.8 |
| GPQA-D | 55.6 | 62.1 |
LLaDA-2.1-mini 대비 AIME-24 +26점, LiveCodeBench-v6 +15점.
처리량
동시 처리(C=64) 환경에서 기존 SDAR 대비 2.9~4.1배 높은 처리량. 배치 크기와 무관하게 일관된 속도 향상을 보인다.
내성적 일관성
| 수용률 | |
|---|---|
| 기존 SDAR | 0.699 |
| I-DLM | 0.984 |
무손실 가속: R-ISD
Gated LoRA 어댑터(rank=128)를 사용해 기존 AR 모델과 비트 단위로 동일한 출력을 유지하면서 속도를 높일 수 있다. 오버헤드는 약 1.12배로 미미하다.
모델
| 모델 | 기반 | 설명 |
|---|---|---|
| I-DLM-8B | Qwen3-8B | AR 수준 품질의 메인 모델 |
| I-DLM-32B | Qwen3-32B | LLaDA-2.1-flash 대비 우월한 대형 모델 |
| I-DLM-8B-LoRA | Qwen3-8B | 무손실 R-ISD용 Gated LoRA 어댑터 |
누가 쓰면 좋은가
- LLM 서빙 엔지니어: 추론 비용을 줄이면서 품질은 유지하고 싶은 경우
- AI 연구자: 확산 언어 모델의 최신 동향을 파악하고 싶은 경우
- 고처리량 서비스 운영자: 동시 요청이 많은 환경에서 AR 대비 비용 효율을 높이고 싶은 경우
SGLang 서버로 바로 실행할 수 있으며 모델은 HuggingFace(yifanyu/I-DLM-8B)에 공개되어 있다.
라이선스
Apache-2.0 오픈소스 라이선스로 공개되어 있다.
관련 토픽
- diffusion-language-models — 확산 언어 모델 전반 개요