Gemma 4 12B는 Google이 2026년 6월 공개한 경량 오픈 멀티모달 모델로, 별도의 비전·오디오 인코더 없이 이미지·오디오·텍스트 입력을 LLM 백본(backbone)에서 직접 처리하는 인코더 없는(encoder-free) 통합 아키텍처가 핵심 특징이다. 16GB VRAM 노트북에서 실행되면서도 26B MoE 모델에 근접한 벤치마크 성능을 보여 로컬 멀티모달 에이전트 구현의 기준점을 높였다.
왜 주목받는가
기존 멀티모달 모델은 이미지·오디오 처리를 위해 별도 인코더를 두고, 그 결과를 LLM으로 전달하는 2단계 구조를 취한다. 인코더가 추가될수록 메모리 사용량이 늘고 레이턴시도 증가한다. Gemma 4 12B는 이 구조를 과감히 단순화했다.
- 인코더 제거: 비전·오디오 인코더 대신 단순 임베딩 모듈(행렬 곱셈 + 위치 임베딩 + 정규화)로 시각 입력 처리
- 오디오 완전 통합: 오디오 인코더를 전부 제거하고 원시 오디오 신호를 텍스트 토큰과 같은 차원으로 직접 투영
- 소형 폼팩터: 16GB VRAM 노트북 및 통합 메모리 기기에서 실행 가능
- MTP 드래프터 내장: Multi-Token Prediction(MTP) 드래프터를 탑재해 추론 레이턴시 단축
아키텍처 특징
인코더 없는 멀티모달 처리
기존 멀티모달 모델과 Gemma 4 12B의 차이를 비교하면 다음과 같다.
| 구분 | 기존 멀티모달 | Gemma 4 12B |
|---|---|---|
| 비전 처리 | 비전 인코더 → LLM | 경량 임베딩 모듈 → LLM 백본 직접 처리 |
| 오디오 처리 | 오디오 인코더 → LLM | 원시 오디오 신호 → 텍스트 토큰 차원 투영 |
| 메모리 요구량 | 인코더 무게만큼 추가 | 16GB VRAM으로 실행 가능 |
| 레이턴시 | 인코더 처리 시간 포함 | MTP 드래프터로 추론 속도 향상 |
성능
26B MoE 모델의 절반 미만 메모리로 표준 벤치마크에서 유사한 성능을 달성한다. 멀티스텝 추론과 에이전틱 워크플로를 위한 고급 추론 능력을 제공한다.
주요 특징 요약
- Novel unified architecture: 별도 인코더 없이 비전·오디오를 LLM 백본에서 직접 처리
- Advanced reasoning: 26B MoE에 근접한 벤치마크 성능, 멀티스텝 추론 지원
- Laptop ready: 16GB VRAM 또는 통합 메모리 기기에서 실행
- Open and accessible: Apache 2.0 라이선스
- Drafter-ready: MTP 드래프터로 레이턴시 감소
사용 대상
- 로컬에서 이미지·오디오·텍스트를 처리하는 멀티모달 에이전트를 구현하는 개발자
- 클라우드 의존도를 줄이고 온디바이스 AI를 적용하려는 팀
- 비용 부담 없이 멀티모달 기능을 실험하려는 연구자
시작하기
# Ollama
ollama run gemma4:12b
# HuggingFace Transformers
pip install transformers공식 Developer Guide: Gemma 4 12B Developer Guide
라이선스
Apache 2.0
관련 문서
- gemma — Gemma 모델 패밀리 전체 개요
- gemma-4-tips-mtp-drafter — MTP 드래프터로 최대 3배 빠른 추론 달성하기