I-DLM – 자기회귀 모델과 동등한 품질로 2.9~4.1배 빠른 확산 언어 모델

배경: 확산 언어 모델의 한계
핵심 기법: ISD (Introspective Strided Decoding)
성능
품질 (AR 모델과 비교)
처리량
내성적 일관성
무손실 가속: R-ISD
모델
누가 쓰면 좋은가
라이선스
관련 토픽

I-DLM(Introspective Diffusion Language Models)은 기존 확산 언어 모델(DLM)의 고질적인 품질 열세 문제를 해결한 연구다. 내성적 스트라이드 디코딩(ISD)이라는 새 기법으로 토큰 생성과 검증을 한 번의 포워드 패스에서 동시에 수행하여, 8B 파라미터 모델이 같은 크기의 자기회귀(AR) 모델과 동등한 품질을 달성하면서 동시 처리 시 최대 4.1배 높은 처리량을 기록했다. Together AI, UIUC, Princeton, Stanford, UT Austin 공동 연구 성과다.

배경: 확산 언어 모델의 한계

자기회귀(AR) 모델은 토큰을 하나씩 순차적으로 생성하기 때문에 병렬 처리가 어렵다. 반면 확산 모델은 여러 토큰을 동시에 생성할 수 있어 이론적으로 훨씬 빠르다. 하지만 실제로는 품질이 AR 모델에 비해 현저히 낮다는 문제가 있었다.

연구팀은 그 원인을 “내성(introspection) 부재”로 진단했다. AR 모델은 학습 과정에서 생성과 검증을 동시에 학습하지만, 기존 DLM은 노이즈 제거(denoising)만 학습할 뿐 자신이 생성한 토큰을 검증하는 능력이 없다.

핵심 기법: ISD (Introspective Strided Decoding)

ISD는 한 번의 포워드 패스에서 두 가지 작업을 동시에 처리한다:

전진: N개의 새 토큰 생성
검증: 이전에 생성한 토큰을 p/q 수용 기준으로 검증

엄격한 인과적 어텐션(causal attention)을 사용하기 때문에 기존 AR 서빙 인프라(SGLang 등)에 그대로 통합할 수 있다.

성능

품질 (AR 모델과 비교)

I-DLM-8B는 같은 규모의 AR 모델과 동등한 성능을 달성했고, I-DLM-32B는 더 큰 규모인 LLaDA-2.1-mini(16B)를 크게 앞선다.

벤치마크	I-DLM-8B	I-DLM-32B
AIME-24	69.6	83.3
AIME-25	60.8	80.0
MATH-500	96.8	97.6
LiveCodeBench-v6	45.7	57.1
MMLU	82.4	86.8
GPQA-D	55.6	62.1

LLaDA-2.1-mini 대비 AIME-24 +26점, LiveCodeBench-v6 +15점.

처리량

동시 처리(C=64) 환경에서 기존 SDAR 대비 2.9~4.1배 높은 처리량. 배치 크기와 무관하게 일관된 속도 향상을 보인다.

내성적 일관성

	수용률
기존 SDAR	0.699
I-DLM	0.984

무손실 가속: R-ISD

Gated LoRA 어댑터(rank=128)를 사용해 기존 AR 모델과 비트 단위로 동일한 출력을 유지하면서 속도를 높일 수 있다. 오버헤드는 약 1.12배로 미미하다.

모델

모델	기반	설명
I-DLM-8B	Qwen3-8B	AR 수준 품질의 메인 모델
I-DLM-32B	Qwen3-32B	LLaDA-2.1-flash 대비 우월한 대형 모델
I-DLM-8B-LoRA	Qwen3-8B	무손실 R-ISD용 Gated LoRA 어댑터

누가 쓰면 좋은가

LLM 서빙 엔지니어: 추론 비용을 줄이면서 품질은 유지하고 싶은 경우
AI 연구자: 확산 언어 모델의 최신 동향을 파악하고 싶은 경우
고처리량 서비스 운영자: 동시 요청이 많은 환경에서 AR 대비 비용 효율을 높이고 싶은 경우

SGLang 서버로 바로 실행할 수 있으며 모델은 HuggingFace(yifanyu/I-DLM-8B)에 공개되어 있다.

라이선스

Apache-2.0 오픈소스 라이선스로 공개되어 있다.

AI Sparkup