AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

DiffusionGemma – 256토큰 블록 병렬 생성으로 4배 빠른 텍스트 확산 모델

DiffusionGemma는 Google이 2026년 6월 공개한 실험적 오픈소스 언어 모델이다. 기존 오토리그레시브(autoregressive) 방식의 순차 토큰 생성 대신, 이미지 생성 모델에서 쓰이던 확산(diffusion) 방식을 텍스트에 적용해 256토큰 블록을 한 번의 순전파(forward pass)로 생성한다. 전용 GPU 기준 최대 4배 빠른 추론 속도를 달성하며, Apache 2.0 라이선스로 배포됐다.

왜 텍스트 확산인가

기존 LLM은 타자기처럼 토큰을 왼쪽에서 오른쪽으로 하나씩 생성한다. 클라우드에서는 수천 건의 요청을 배치(batch)로 묶어 GPU 활용률을 높일 수 있지만, 로컬 단일 사용자 환경에서는 GPU가 다음 토큰을 기다리는 시간이 대부분이다. 메모리 대역폭에 발목 잡힌 구조다.

DiffusionGemma는 이 비효율을 뒤집는다. 256토큰을 동시에 초안으로 잡고(draft), 이를 반복적으로 정제(refine)하는 방식으로 GPU 연산을 빽빽하게 채운다. 그 결과 추론 병목이 메모리 대역폭에서 연산(compute)으로 이동하고, 전용 GPU의 병렬 처리 능력을 온전히 활용할 수 있다.

주요 스펙 및 성능

항목내용
모델 아키텍처MoE (Mixture of Experts)
총 파라미터26B
활성 파라미터3.8B
블록 크기256 토큰
추론 속도 (H100)1,000+ 토큰/s
추론 속도 (RTX 5090)700+ 토큰/s
VRAM 요구량~18GB (양자화 적용 시)
라이선스Apache 2.0

26B 총 파라미터 중 추론 시에는 3.8B만 활성화되므로, 고사양 소비자 GPU 기준 18GB VRAM에서도 동작한다.

차별점: 오토리그레시브 vs 확산

항목오토리그레시브 LLMDiffusionGemma
생성 방식토큰 순차 생성블록 병렬 생성 (256토큰)
어텐션 방향단방향 (좌→우)양방향 (모든 토큰 상호 참조)
로컬 추론 속도상대적으로 느림최대 4배 빠름
고QPS 클라우드 효율배치 처리로 효율적비효율 (추가 비용 발생)
출력 품질높음표준 Gemma 4보다 낮음 (실험적)
자기 수정없음블록 단위 반복 정제 가능

양방향 어텐션(bi-directional attention)은 인라인 편집, 코드 공백 채우기(infilling), 단백질 서열, 수식 그래프 같이 비선형 도메인에서 특히 유리하다.

적합한 사용 케이스

DiffusionGemma는 속도가 핵심인 로컬·저지연 시나리오에 최적화됐다.

  • 실시간 인터랙티브 AI 앱 (낮은 응답 지연이 필수인 경우)
  • 단일 사용자 로컬 추론 (클라우드 API 의존을 줄이고 싶을 때)
  • 코드 인필링(infilling), 텍스트 인라인 편집 (양방향 어텐션 활용)
  • 속도 중심의 프로토타이핑·데모

주의: 고QPS 클라우드 서빙 환경에서는 오토리그레시브 모델이 배치 처리로 더 효율적이다. 최고 품질을 요구하는 프로덕션에는 표준 Gemma 4를 권장한다.

시작하기

모델 가중치는 HuggingFace에서 Apache 2.0으로 배포됐다.

# HuggingFace Transformers
pip install transformers

주요 지원 런타임:

런타임링크
HuggingFace Transformersgoogle/diffusiongemma-26B-A4B-it
vLLM (Red Hat 통합)vLLM 0.9+ 공식 지원
MLX (Apple Silicon)mlx-community/DiffusionGemma 컬렉션
Unsloth (파인튜닝)Unsloth 공식 문서
NVIDIA NeMoNeMo Automodel 가이드

파인튜닝은 Google의 JAX 기반 모듈형 툴박스 Hackable Diffusion을 활용할 수 있다.

라이선스

Apache 2.0 — 상업적 사용, 수정, 재배포 모두 허용.

관련 문서

  • gemma-4 — DiffusionGemma의 기반이 된 Gemma 4 모델 계열

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)