DiffusionGemma – 256토큰 블록 병렬 생성으로 4배 빠른 텍스트 확산 모델

왜 텍스트 확산인가
주요 스펙 및 성능
차별점: 오토리그레시브 vs 확산
적합한 사용 케이스
시작하기
라이선스
관련 문서
참고 자료

DiffusionGemma는 Google이 2026년 6월 공개한 실험적 오픈소스 언어 모델이다. 기존 오토리그레시브(autoregressive) 방식의 순차 토큰 생성 대신, 이미지 생성 모델에서 쓰이던 확산(diffusion) 방식을 텍스트에 적용해 256토큰 블록을 한 번의 순전파(forward pass)로 생성한다. 전용 GPU 기준 최대 4배 빠른 추론 속도를 달성하며, Apache 2.0 라이선스로 배포됐다.

왜 텍스트 확산인가

기존 LLM은 타자기처럼 토큰을 왼쪽에서 오른쪽으로 하나씩 생성한다. 클라우드에서는 수천 건의 요청을 배치(batch)로 묶어 GPU 활용률을 높일 수 있지만, 로컬 단일 사용자 환경에서는 GPU가 다음 토큰을 기다리는 시간이 대부분이다. 메모리 대역폭에 발목 잡힌 구조다.

DiffusionGemma는 이 비효율을 뒤집는다. 256토큰을 동시에 초안으로 잡고(draft), 이를 반복적으로 정제(refine)하는 방식으로 GPU 연산을 빽빽하게 채운다. 그 결과 추론 병목이 메모리 대역폭에서 연산(compute)으로 이동하고, 전용 GPU의 병렬 처리 능력을 온전히 활용할 수 있다.

주요 스펙 및 성능

항목	내용
모델 아키텍처	MoE (Mixture of Experts)
총 파라미터	26B
활성 파라미터	3.8B
블록 크기	256 토큰
추론 속도 (H100)	1,000+ 토큰/s
추론 속도 (RTX 5090)	700+ 토큰/s
VRAM 요구량	~18GB (양자화 적용 시)
라이선스	Apache 2.0

26B 총 파라미터 중 추론 시에는 3.8B만 활성화되므로, 고사양 소비자 GPU 기준 18GB VRAM에서도 동작한다.

차별점: 오토리그레시브 vs 확산

항목	오토리그레시브 LLM	DiffusionGemma
생성 방식	토큰 순차 생성	블록 병렬 생성 (256토큰)
어텐션 방향	단방향 (좌→우)	양방향 (모든 토큰 상호 참조)
로컬 추론 속도	상대적으로 느림	최대 4배 빠름
고QPS 클라우드 효율	배치 처리로 효율적	비효율 (추가 비용 발생)
출력 품질	높음	표준 Gemma 4보다 낮음 (실험적)
자기 수정	없음	블록 단위 반복 정제 가능

양방향 어텐션(bi-directional attention)은 인라인 편집, 코드 공백 채우기(infilling), 단백질 서열, 수식 그래프 같이 비선형 도메인에서 특히 유리하다.

적합한 사용 케이스

DiffusionGemma는 속도가 핵심인 로컬·저지연 시나리오에 최적화됐다.

실시간 인터랙티브 AI 앱 (낮은 응답 지연이 필수인 경우)
단일 사용자 로컬 추론 (클라우드 API 의존을 줄이고 싶을 때)
코드 인필링(infilling), 텍스트 인라인 편집 (양방향 어텐션 활용)
속도 중심의 프로토타이핑·데모

주의: 고QPS 클라우드 서빙 환경에서는 오토리그레시브 모델이 배치 처리로 더 효율적이다. 최고 품질을 요구하는 프로덕션에는 표준 Gemma 4를 권장한다.

시작하기

모델 가중치는 HuggingFace에서 Apache 2.0으로 배포됐다.

# HuggingFace Transformers
pip install transformers

주요 지원 런타임:

런타임	링크
HuggingFace Transformers	`google/diffusiongemma-26B-A4B-it`
vLLM (Red Hat 통합)	vLLM 0.9+ 공식 지원
MLX (Apple Silicon)	`mlx-community/DiffusionGemma` 컬렉션
Unsloth (파인튜닝)	Unsloth 공식 문서
NVIDIA NeMo	NeMo Automodel 가이드

파인튜닝은 Google의 JAX 기반 모듈형 툴박스 Hackable Diffusion을 활용할 수 있다.

라이선스

Apache 2.0 — 상업적 사용, 수정, 재배포 모두 허용.

참고 자료

DiffusionGemma: 4x faster text generation — Google Blog (2026-06-10)
DiffusionGemma: The Developer Guide — Google Developers Blog (2026-06-10)
DiffusionGemma: Google’s Diffusion-Based Open Model for Faster Text Generation — Analytics Vidhya (2026-06)
A Visual Guide to DiffusionGemma — Maarten Grootendorst Newsletter (2026-06)

Like?

AI Sparkup