AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Gemma 4 12B, 인코더 없이 멀티모달 처리하는 노트북용 AI 모델

멀티모달 AI 모델은 이미지와 소리를 이해하기 위해 별도의 인코더를 달고 있었습니다. 그런데 구글은 그 인코더를 통째로 없애버렸습니다. 더 작아졌는데, 오히려 더 빠르고 더 많은 걸 처리합니다.

사진 출처: Google Blog

구글 딥마인드가 2026년 6월 3일 Gemma 4 12B를 공개했습니다. Gemma 4 패밀리의 새 모델로, 기존 Gemma 4 E4B(경량)와 26B MoE(대형) 사이를 채우는 중형 모델입니다. 핵심은 이미지와 오디오를 처리하는 인코더를 제거하고, 시각·음성 데이터를 LLM에 직접 투입하는 통합 아키텍처를 채택했다는 점입니다. Apache 2.0 라이선스로 공개되어 Hugging Face와 Kaggle에서 바로 내려받을 수 있습니다.

출처: Introducing Gemma 4 12B – Google Blog

인코더를 없앤다는 게 무슨 의미인가

기존 멀티모달 모델은 이미지와 오디오를 LLM이 이해할 수 있는 형태로 바꿔주는 별도의 인코더를 필요로 했습니다. Gemma 4 계열도 마찬가지였는데, 중형 모델 기준으로 이미지 인코더에만 5억 5천만 개의 파라미터가 들어가고, 오디오 인코더에도 3억 개가 따로 필요했습니다. 이 인코더들이 메모리를 잡아먹고, 처리 단계마다 지연을 만들었습니다.

Gemma 4 12B는 이 구조를 바꿨습니다.

  1. 비전 처리 — 27개 레이어짜리 비전 트랜스포머 대신, 단일 행렬 곱셈과 위치 임베딩만으로 구성된 3,500만 파라미터짜리 경량 모듈로 교체했습니다. 48×48픽셀 패치를 LLM의 입력 공간에 직접 투영합니다.
  2. 오디오 처리 — 인코더 자체를 없앴습니다. 16kHz 원시 오디오 신호를 40ms 단위로 잘라, 텍스트 토큰과 같은 차원의 벡터로 선형 투영합니다. 12개 레이어짜리 오디오 인코더가 사라진 자리를 단순한 선형 변환이 대신합니다.
  3. 통합 파인튜닝 — 텍스트, 이미지, 오디오가 동일한 가중치를 공유하기 때문에, 파인튜닝 시 별도의 인코더를 따로 맞출 필요가 없습니다. LoRA 같은 어댑터를 붙이면 멀티모달 전체가 한 번에 업데이트됩니다.

Gemma 4 12B에서 오디오를 직접 처리하는 건 Gemma 패밀리 중형 모델 최초입니다. 기존에는 경량 에지 모델(E2B, E4B)에서만 가능했던 기능입니다.

12B인데 26B 성능에 근접한다

벤치마크 기준으로 Gemma 4 12B는 파라미터가 두 배 이상인 Gemma 4 26B MoE 모델과 비슷한 성능을 냅니다. 인코더를 없앤 덕분에 메모리 사용량은 오히려 26B 대비 절반 이하로 줄었습니다.

실행 조건은 16GB VRAM 또는 통합 메모리를 갖춘 노트북입니다. 무게는 약 18GB. Apple Silicon 맥북이나 전용 GPU가 달린 윈도우 노트북이라면 충분히 로컬에서 돌아갑니다. 여기에 MTP(Multi-Token Prediction) 드래프터가 기본 탑재되어 있어, 미래 토큰을 미리 예측하는 방식으로 추론 속도도 끌어올렸습니다. Gemma 4 다른 모델들은 MTP가 선택 사항이었는데, 12B에는 처음부터 포함됩니다.

구글은 이 모델과 함께 macOS용 데스크톱 앱도 함께 내놓았습니다. AI Edge Gallery(로컬 코드 실행·시각화)와 Eloquent(오프라인 음성 받아쓰기·편집) 두 앱이 Gemma 4 12B를 기반으로 맥에서 완전 오프라인으로 동작합니다.

아키텍처 혁신이 갖는 의미

인코더 제거는 단순한 경량화 전략이 아닙니다. 멀티모달 모델의 구조적 복잡성을 낮추면서도 성능을 유지했다는 점에서, 오픈 모델 생태계에 새로운 설계 기준을 제시합니다. 이 모델이 로컬에서 실행되면서 이미지, 오디오, 텍스트를 동시에 다룰 수 있다는 건, 클라우드 의존 없이 멀티모달 에이전트 워크플로우를 구성하려는 개발자에게 선택지가 생겼다는 의미입니다.

아키텍처의 기술적 세부 내용은 개발자 가이드에 상세히 정리되어 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다