Google이 Gemma 4 패밀리에 맞는 MTP(Multi-Token Prediction) 드래프터를 공개했다. 투기적 디코딩(speculative decoding) 아키텍처를 활용해 출력 품질 저하 없이 추론 속도를 최대 3배 끌어올린다. Apache-2.0 라이선스로 Hugging Face, Kaggle에서 무료로 받을 수 있다.
왜 추론 속도가 느린가
표준 LLM 추론은 메모리 대역폭 병목이 근본 원인이다. 프로세서가 단 하나의 토큰을 생성하기 위해 수십억 개의 파라미터를 VRAM에서 연산 유닛으로 옮겨야 하므로, 컴퓨팅 자원이 대부분 유휴 상태가 된다.
투기적 디코딩이란
큰 타겟 모델(예: Gemma 4 31B)과 작은 드래프터 모델(MTP 드래프터)을 쌍으로 운용한다:
- 드래프터가 타겟 모델보다 빠르게 여러 개의 다음 토큰을 예측
- 타겟 모델이 이 예측 시퀀스 전체를 단 하나의 포워드 패스로 병렬 검증
- 타겟이 동의하면 전체 시퀀스를 수용 + 자체 토큰 1개 추가 생성
결과: 평상시 1개 생성하는 시간에 드래프트 시퀀스 전체 + 1개를 출력한다.
핵심 아키텍처 특징
- KV 캐시 공유: 드래프터가 타겟 모델의 KV 캐시와 활성화를 재사용해 컨텍스트 재계산 없음
- E2B·E4B 최적화: 에지 모델에서 병목인 최종 로짓(logit) 계산을 위해 임베더에 효율적 클러스터링 기법 적용
- 배치 크기 활용: Apple Silicon 26B MoE에서 배치 크기 4~8 사용 시 ~2.2배 추가 향상
지원 모델 및 프레임워크
| 모델 | 적용 가능 |
|---|---|
| Gemma 4 E2B / E4B | 에지·모바일 |
| Gemma 4 26B MoE | 로컬 워크스테이션 |
| Gemma 4 31B Dense | 고성능 로컬·클라우드 |
지원 프레임워크: Hugging Face Transformers, MLX, vLLM, SGLang, Ollama, LiteRT-LM(on-device)
시작하기
Hugging Face에서 모델 가중치 다운로드:
from transformers import AutoModelForCausalLM
# Gemma 4 31B + MTP 드래프터 예시
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")Ollama 사용 시:
ollama run gemma4:31b-coding-mtp-bf16공식 MTP 사용 문서 참고.
어떤 경우에 적합한가
- 코딩 어시스턴트·에이전틱 워크플로: 멀티스텝 계획에서 레이턴시가 생산성에 직결
- 로컬 개발 환경: RTX/Apple Silicon에서 26B·31B를 빠르게 실행
- 모바일·에지 앱: E2B·E4B와 드래프터를 결합해 배터리 절약 + 빠른 응답
- 실시간 음성 대화: 응답 속도가 사용자 경험의 핵심인 애플리케이션
관련 문서
- gemma — Gemma 모델 패밀리 전체 소개
- gemma-tutorial-pi-agent — Gemma로 Pi 에이전트 구현
- gemma-tutorial-tool-calling — Gemma 함수 호출 튜토리얼
참고 자료
- Accelerating Gemma 4: faster inference with multi-token prediction drafters — Google (2026-05-05)