DiffusionGemma는 Google이 2026년 6월 공개한 실험적 오픈소스 언어 모델이다. 기존 오토리그레시브(autoregressive) 방식의 순차 토큰 생성 대신, 이미지 생성 모델에서 쓰이던 확산(diffusion) 방식을 텍스트에 적용해 256토큰 블록을 한 번의 순전파(forward pass)로 생성한다. 전용 GPU 기준 최대 4배 빠른 추론 속도를 달성하며, Apache 2.0 라이선스로 배포됐다.
왜 텍스트 확산인가
기존 LLM은 타자기처럼 토큰을 왼쪽에서 오른쪽으로 하나씩 생성한다. 클라우드에서는 수천 건의 요청을 배치(batch)로 묶어 GPU 활용률을 높일 수 있지만, 로컬 단일 사용자 환경에서는 GPU가 다음 토큰을 기다리는 시간이 대부분이다. 메모리 대역폭에 발목 잡힌 구조다.
DiffusionGemma는 이 비효율을 뒤집는다. 256토큰을 동시에 초안으로 잡고(draft), 이를 반복적으로 정제(refine)하는 방식으로 GPU 연산을 빽빽하게 채운다. 그 결과 추론 병목이 메모리 대역폭에서 연산(compute)으로 이동하고, 전용 GPU의 병렬 처리 능력을 온전히 활용할 수 있다.
주요 스펙 및 성능
| 항목 | 내용 |
|---|---|
| 모델 아키텍처 | MoE (Mixture of Experts) |
| 총 파라미터 | 26B |
| 활성 파라미터 | 3.8B |
| 블록 크기 | 256 토큰 |
| 추론 속도 (H100) | 1,000+ 토큰/s |
| 추론 속도 (RTX 5090) | 700+ 토큰/s |
| VRAM 요구량 | ~18GB (양자화 적용 시) |
| 라이선스 | Apache 2.0 |
26B 총 파라미터 중 추론 시에는 3.8B만 활성화되므로, 고사양 소비자 GPU 기준 18GB VRAM에서도 동작한다.
차별점: 오토리그레시브 vs 확산
| 항목 | 오토리그레시브 LLM | DiffusionGemma |
|---|---|---|
| 생성 방식 | 토큰 순차 생성 | 블록 병렬 생성 (256토큰) |
| 어텐션 방향 | 단방향 (좌→우) | 양방향 (모든 토큰 상호 참조) |
| 로컬 추론 속도 | 상대적으로 느림 | 최대 4배 빠름 |
| 고QPS 클라우드 효율 | 배치 처리로 효율적 | 비효율 (추가 비용 발생) |
| 출력 품질 | 높음 | 표준 Gemma 4보다 낮음 (실험적) |
| 자기 수정 | 없음 | 블록 단위 반복 정제 가능 |
양방향 어텐션(bi-directional attention)은 인라인 편집, 코드 공백 채우기(infilling), 단백질 서열, 수식 그래프 같이 비선형 도메인에서 특히 유리하다.
적합한 사용 케이스
DiffusionGemma는 속도가 핵심인 로컬·저지연 시나리오에 최적화됐다.
- 실시간 인터랙티브 AI 앱 (낮은 응답 지연이 필수인 경우)
- 단일 사용자 로컬 추론 (클라우드 API 의존을 줄이고 싶을 때)
- 코드 인필링(infilling), 텍스트 인라인 편집 (양방향 어텐션 활용)
- 속도 중심의 프로토타이핑·데모
주의: 고QPS 클라우드 서빙 환경에서는 오토리그레시브 모델이 배치 처리로 더 효율적이다. 최고 품질을 요구하는 프로덕션에는 표준 Gemma 4를 권장한다.
시작하기
모델 가중치는 HuggingFace에서 Apache 2.0으로 배포됐다.
# HuggingFace Transformers
pip install transformers주요 지원 런타임:
| 런타임 | 링크 |
|---|---|
| HuggingFace Transformers | google/diffusiongemma-26B-A4B-it |
| vLLM (Red Hat 통합) | vLLM 0.9+ 공식 지원 |
| MLX (Apple Silicon) | mlx-community/DiffusionGemma 컬렉션 |
| Unsloth (파인튜닝) | Unsloth 공식 문서 |
| NVIDIA NeMo | NeMo Automodel 가이드 |
파인튜닝은 Google의 JAX 기반 모듈형 툴박스 Hackable Diffusion을 활용할 수 있다.
라이선스
Apache 2.0 — 상업적 사용, 수정, 재배포 모두 허용.
관련 문서
- gemma-4 — DiffusionGemma의 기반이 된 Gemma 4 모델 계열
참고 자료
- DiffusionGemma: 4x faster text generation — Google Blog (2026-06-10)
- A Visual Guide to DiffusionGemma — Maarten Grootendorst Newsletter (2026-06)