AI Sparkup

Spark Up Your AI Knowledge⚡

Google T5-Gemma-2로 노트북에서 이미지 분석하기: 실전 활용 가이드

차트 스크린샷을 찍어서 “이번 분기 매출이 가장 높았던 달은?”이라고 물으면, AI가 이미지를 보고 바로 답해준다면 어떨까요? 거대한 GPU 서버 없이 여러분의 노트북에서 말이죠.

사진 출처: Google Blog

Google이 공개한 T5-Gemma-2는 텍스트와 이미지를 동시에 처리하는 멀티모달 AI 모델입니다. 가장 작은 버전은 3억 7천만 개 파라미터로 일반 노트북에서도 구동되며, 최대 128K 토큰의 긴 문맥을 처리할 수 있어요. 데이터 분석가, 개발자, 연구자라면 서버 비용 걱정 없이 로컬에서 실험할 수 있는 실용적인 도구입니다.

출처: T5Gemma 2: The next generation of encoder-decoder models – Google Blog

encoder-decoder가 다시 주목받는 이유

최근 AI 모델은 대부분 GPT처럼 decoder-only 구조를 쓰죠. 하지만 T5-Gemma-2는 encoder-decoder 구조를 채택했습니다. encoder가 입력을 양방향으로 읽어 문맥을 파악하고, decoder가 그걸 바탕으로 출력을 생성하는 방식이에요. 요약, 번역, 질의응답처럼 “입력을 이해하고 변환”하는 작업에는 이 구조가 훨씬 효율적입니다.

Google은 Gemma 3 decoder 모델을 지속 사전학습(continued pre-training)으로 encoder-decoder로 전환했어요. encoder와 decoder의 임베딩을 공유(tied embeddings)해서 파라미터 수를 줄였고, attention 메커니즘을 통합해 추론 속도를 높였습니다. 2조 개 토큰(2024년 8월까지의 웹 문서, 코드, 수학, 이미지)으로 학습했고 140개 이상 언어를 지원해요.

노트북에서 바로 써보는 멀티모달 분석

실제 사용 시나리오를 보겠습니다. 분기별 매출 차트 스크린샷이 있다고 해보죠. 보통은 차트를 눈으로 보고 숫자를 일일이 확인해야 하지만, T5-Gemma-2는 이미지와 질문을 동시에 입력받아 답을 생성합니다.

from transformers import T5Gemma2Processor, T5Gemma2ForConditionalGeneration
import torch
from PIL import Image

# 가장 작은 270M-270M 모델 로드 (총 370M 파라미터)
model_id = "google/t5gemma-2-270m-270m"
processor = T5Gemma2Processor.from_pretrained(model_id)
model = T5Gemma2ForConditionalGeneration.from_pretrained(
    model_id, torch_dtype=torch.bfloat16, device_map="auto"
)

# 차트 이미지 + 텍스트 질문
image = Image.open("sales-chart.png")
prompt = "이 매출 차트를 분석해줘. 가장 높았던 달과 평균 대비 얼마나 높았는지 알려줘."
inputs = processor(text=prompt, images=image, return_tensors="pt")

# 응답 생성 (128K 토큰 문맥 지원)
with torch.no_grad():
    generated_ids = model.generate(**inputs, max_new_tokens=128)
    response = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

결과:

“7월이 45만 달러로 가장 높았고, 분기 평균 32만 달러보다 13만 달러 높았습니다.”

이미지를 따로 OCR 처리하거나 별도의 vision 모델을 쓸 필요가 없어요. 하나의 모델이 시각 정보와 텍스트를 함께 이해합니다.

실무에서 써먹을 수 있는 활용법

1. 문서·차트 자동 분석

  • UI 스크린샷, 보고서 이미지, 다이어그램에 대해 질문
  • RAG 파이프라인에 통합해 이미지가 포함된 문서 검색
  • 리포트 자동 생성 워크플로우 구축

2. 긴 문서 처리

  • 128K 토큰 문맥 덕분에 전체 논문, 정책 문서, 긴 코드베이스를 통째로 입력 가능
  • 청킹(chunking) 없이 원문 그대로 요약·분석
  • 기존 RAG 시스템에서 문맥 손실 최소화

3. 다국어 서비스

  • 140개 언어 지원으로 글로벌 제품 개발
  • 영어·한국어·힌디어 등 프롬프트를 바꿔가며 같은 모델 사용
  • 번역, 요약, QA 워크플로우를 다국어로 확장

4. 경량화 배포

  • bitsandbytes로 4비트 양자화하면 모바일 기기 배포도 가능
  • Google Colab 무료 티어에서도 실행 (270M-270M 모델)
  • 서버 비용 없이 로컬 실험과 프로토타이핑

성능은 어느 정도일까?

T5-Gemma-2는 같은 크기의 Gemma 3와 비교했을 때 멀티모달, 긴 문맥, 코딩, 추론, 다국어 성능에서 우위를 보입니다. 특히 Gemma 3 270M과 1B가 텍스트 전용인 반면, T5-Gemma-2는 같은 파라미터 수준에서 비전-언어 기능까지 제공해요.

encoder의 양방향 처리 덕분에 긴 시퀀스 모델링이 정확하고, 코딩·추론·다국어 벤치마크에서도 개선된 결과를 냈습니다. 노트북급 하드웨어에서 실용적으로 쓸 수 있는 멀티모달 AI로는 최초라고 할 수 있죠.

언제 T5-Gemma-2를 선택할까?

거대한 대화형 LLM(ChatGPT, Claude)이 필요 없고, 특정 작업에 최적화된 효율적 모델이 필요하다면 T5-Gemma-2가 답입니다. 요약, 번역, 구조화된 데이터 추출, 이미지 기반 QA처럼 입력-출력 변환 작업에 강하고, 로컬 환경에서 빠르게 실험할 수 있어요.

서버 비용 없이 멀티모달 워크플로우를 구축하고 싶은 개발자, 대량의 문서나 이미지를 자동 분석하려는 데이터 분석가라면 지금 당장 Hugging Face에서 모델을 받아 써보세요. 3억 7천만 파라미터로 이만큼 할 수 있다는 게 놀라울 겁니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다