차트 스크린샷을 찍어서 “이번 분기 매출이 가장 높았던 달은?”이라고 물으면, AI가 이미지를 보고 바로 답해준다면 어떨까요? 거대한 GPU 서버 없이 여러분의 노트북에서 말이죠.

Google이 공개한 T5-Gemma-2는 텍스트와 이미지를 동시에 처리하는 멀티모달 AI 모델입니다. 가장 작은 버전은 3억 7천만 개 파라미터로 일반 노트북에서도 구동되며, 최대 128K 토큰의 긴 문맥을 처리할 수 있어요. 데이터 분석가, 개발자, 연구자라면 서버 비용 걱정 없이 로컬에서 실험할 수 있는 실용적인 도구입니다.
출처: T5Gemma 2: The next generation of encoder-decoder models – Google Blog
encoder-decoder가 다시 주목받는 이유
최근 AI 모델은 대부분 GPT처럼 decoder-only 구조를 쓰죠. 하지만 T5-Gemma-2는 encoder-decoder 구조를 채택했습니다. encoder가 입력을 양방향으로 읽어 문맥을 파악하고, decoder가 그걸 바탕으로 출력을 생성하는 방식이에요. 요약, 번역, 질의응답처럼 “입력을 이해하고 변환”하는 작업에는 이 구조가 훨씬 효율적입니다.
Google은 Gemma 3 decoder 모델을 지속 사전학습(continued pre-training)으로 encoder-decoder로 전환했어요. encoder와 decoder의 임베딩을 공유(tied embeddings)해서 파라미터 수를 줄였고, attention 메커니즘을 통합해 추론 속도를 높였습니다. 2조 개 토큰(2024년 8월까지의 웹 문서, 코드, 수학, 이미지)으로 학습했고 140개 이상 언어를 지원해요.
노트북에서 바로 써보는 멀티모달 분석
실제 사용 시나리오를 보겠습니다. 분기별 매출 차트 스크린샷이 있다고 해보죠. 보통은 차트를 눈으로 보고 숫자를 일일이 확인해야 하지만, T5-Gemma-2는 이미지와 질문을 동시에 입력받아 답을 생성합니다.
from transformers import T5Gemma2Processor, T5Gemma2ForConditionalGeneration
import torch
from PIL import Image
# 가장 작은 270M-270M 모델 로드 (총 370M 파라미터)
model_id = "google/t5gemma-2-270m-270m"
processor = T5Gemma2Processor.from_pretrained(model_id)
model = T5Gemma2ForConditionalGeneration.from_pretrained(
model_id, torch_dtype=torch.bfloat16, device_map="auto"
)
# 차트 이미지 + 텍스트 질문
image = Image.open("sales-chart.png")
prompt = "이 매출 차트를 분석해줘. 가장 높았던 달과 평균 대비 얼마나 높았는지 알려줘."
inputs = processor(text=prompt, images=image, return_tensors="pt")
# 응답 생성 (128K 토큰 문맥 지원)
with torch.no_grad():
generated_ids = model.generate(**inputs, max_new_tokens=128)
response = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)결과:
“7월이 45만 달러로 가장 높았고, 분기 평균 32만 달러보다 13만 달러 높았습니다.”
이미지를 따로 OCR 처리하거나 별도의 vision 모델을 쓸 필요가 없어요. 하나의 모델이 시각 정보와 텍스트를 함께 이해합니다.
실무에서 써먹을 수 있는 활용법
1. 문서·차트 자동 분석
- UI 스크린샷, 보고서 이미지, 다이어그램에 대해 질문
- RAG 파이프라인에 통합해 이미지가 포함된 문서 검색
- 리포트 자동 생성 워크플로우 구축
2. 긴 문서 처리
- 128K 토큰 문맥 덕분에 전체 논문, 정책 문서, 긴 코드베이스를 통째로 입력 가능
- 청킹(chunking) 없이 원문 그대로 요약·분석
- 기존 RAG 시스템에서 문맥 손실 최소화
3. 다국어 서비스
- 140개 언어 지원으로 글로벌 제품 개발
- 영어·한국어·힌디어 등 프롬프트를 바꿔가며 같은 모델 사용
- 번역, 요약, QA 워크플로우를 다국어로 확장
4. 경량화 배포
- bitsandbytes로 4비트 양자화하면 모바일 기기 배포도 가능
- Google Colab 무료 티어에서도 실행 (270M-270M 모델)
- 서버 비용 없이 로컬 실험과 프로토타이핑
성능은 어느 정도일까?
T5-Gemma-2는 같은 크기의 Gemma 3와 비교했을 때 멀티모달, 긴 문맥, 코딩, 추론, 다국어 성능에서 우위를 보입니다. 특히 Gemma 3 270M과 1B가 텍스트 전용인 반면, T5-Gemma-2는 같은 파라미터 수준에서 비전-언어 기능까지 제공해요.
encoder의 양방향 처리 덕분에 긴 시퀀스 모델링이 정확하고, 코딩·추론·다국어 벤치마크에서도 개선된 결과를 냈습니다. 노트북급 하드웨어에서 실용적으로 쓸 수 있는 멀티모달 AI로는 최초라고 할 수 있죠.
언제 T5-Gemma-2를 선택할까?
거대한 대화형 LLM(ChatGPT, Claude)이 필요 없고, 특정 작업에 최적화된 효율적 모델이 필요하다면 T5-Gemma-2가 답입니다. 요약, 번역, 구조화된 데이터 추출, 이미지 기반 QA처럼 입력-출력 변환 작업에 강하고, 로컬 환경에서 빠르게 실험할 수 있어요.
서버 비용 없이 멀티모달 워크플로우를 구축하고 싶은 개발자, 대량의 문서나 이미지를 자동 분석하려는 데이터 분석가라면 지금 당장 Hugging Face에서 모델을 받아 써보세요. 3억 7천만 파라미터로 이만큼 할 수 있다는 게 놀라울 겁니다.
참고자료:
- Google T5Gemma-2 Laptop-Friendly Multimodal AI Explained – Analytics Vidhya
- T5Gemma 2: Seeing, Reading, and Understanding Longer – arXiv 논문
- T5Gemma 2 Collection – Hugging Face

답글 남기기