같은 모델, 같은 출력 품질인데 속도만 최대 3배 빠릅니다. Google이 Gemma 4 패밀리에 MTP(Multi-Token Prediction) 드래프터를 공개했습니다.

Google이 Gemma 4 오픈 모델 패밀리에 MTP 드래프터를 공개했습니다. 핵심은 경량 드래프터 모델과 메인 모델을 함께 사용하는 Speculative Decoding 방식으로, 품질 저하 없이 최대 3배의 추론 속도 향상을 달성했습니다.
출처: Accelerating Gemma 4: faster inference with multi-token prediction drafters – Google Blog
LLM 추론이 느린 진짜 이유
LLM이 텍스트를 생성할 때 속도 문제의 핵심은 계산 능력이 아니라 메모리 대역폭입니다. 모델은 토큰 하나를 생성하기 위해 수십억 개의 파라미터를 VRAM에서 연산 장치로 옮겨야 합니다. 즉, GPU가 아무리 강력해도 “이 다음엔 the가 오겠지”같은 뻔한 예측에도 동일한 비용을 치르는 구조입니다. 결과적으로 연산 장치는 대부분의 시간을 놀고 있고, 병목은 오직 데이터 이동에 있습니다.
Speculative Decoding이 이 문제를 푸는 방식
MTP 드래프터는 이 유휴 연산 자원을 활용합니다. 작동 흐름은 이렇습니다.
- 경량 드래프터 모델이 메인 모델보다 훨씬 빠르게 다음 여러 토큰을 미리 예측합니다.
- 메인 모델(예: Gemma 4 31B)은 드래프터가 제안한 토큰들을 한 번의 병렬 패스로 검증합니다.
- 드래프터의 예측이 맞으면 전체 시퀀스를 한꺼번에 수용하고, 메인 모델은 추가로 토큰 하나를 더 생성합니다.
- 예측이 틀린 부분이 나오면 그 지점까지만 수용하고, 이후는 메인 모델이 직접 처리합니다.
최종 출력은 항상 메인 모델이 검증한 결과입니다. 드래프터의 예측이 틀려도 품질에는 영향이 없고, 맞으면 속도 이득을 얻는 구조입니다.
드래프터가 메인 모델과 공유하는 것
MTP 드래프터는 메인 모델의 내부 활성화값(activations)과 KV 캐시를 공유합니다. 메인 모델이 이미 계산해둔 컨텍스트를 드래프터가 그대로 활용할 수 있어 중복 계산이 없습니다. 엣지 모델(E2B, E4B)에서는 추가로 임베더에 효율적인 클러스터링 기법을 적용해 생성 속도를 더 끌어올렸습니다.
실제 속도 향상 수치를 보면, Apple Silicon에서 Gemma 4 26B(MoE) 모델은 배치 크기 4~8일 때 최대 약 2.2배, NVIDIA A100에서도 배치 크기를 늘릴 때 유사한 수준의 속도 향상이 나타납니다.
로컬 개발자에게 의미하는 것
MTP 드래프터의 실질적 의미는 고가 서버 없이도 Gemma 4 26B(MoE)·31B(Dense) 같은 대형 모델을 소비자용 GPU에서 실용적인 속도로 실행할 수 있게 된다는 점입니다. 코딩 어시스턴트, 다단계 계획이 필요한 에이전트, 온디바이스 앱 등 응답 지연에 민감한 모든 워크로드에서 체감 차이가 생깁니다.
Speculative Decoding 자체는 새로운 개념이 아닙니다. Google 연구진이 2022년에 발표한 기법입니다. 이번에 주목할 점은 대규모 오픈 모델에 이 방식을 체계적으로 통합하고, 엣지부터 워크스테이션까지 다양한 하드웨어에서 실제로 검증된 수치를 함께 공개했다는 것입니다.
MTP 드래프터는 Gemma 4와 동일한 Apache 2.0 라이선스로 Hugging Face와 Kaggle에서 내려받을 수 있습니다.
참고자료:

답글 남기기