이미지 생성 AI에게 “Welcome”이라는 글자가 적힌 간판을 그려달라고 하면 십중팔구 철자가 틀어집니다. 텍스트 렌더링은 이미지 생성 모델의 고질적인 약점이었죠. 그런데 중국의 AI 기업 Zhipu AI가 이 문제를 정면으로 해결한 새로운 모델을 내놓았습니다.

Zhipu AI가 최근 공개한 GLM-Image는 오픈소스 이미지 생성 모델로, 기존 강자였던 Stable Diffusion 3.5와 FLUX.1-dev를 제치고 주요 벤치마크에서 1위를 차지했습니다. 특히 텍스트 렌더링과 복잡한 프롬프트 이해 능력에서 두각을 나타냈다는 평가입니다.
출처: Sortie GLM-Image : meilleur générateur d’images opensource ? – Stable Diffusion Blog
성능 벤치마크에서 압도적 우위
GLM-Image는 GenEval, DPG-Bench, T2I-CompBench Plus 등 주요 이미지 생성 벤치마크에서 기존 오픈소스 모델들을 앞섰습니다. 특히 GenEval에서는 0.75점을 기록하며 Stable Diffusion 3.5 Large(0.68)와 FLUX.1-dev(0.67)보다 높은 점수를 받았습니다.
더 인상적인 건 텍스트 렌더링 능력입니다. OCRBench 테스트에서 GLM-Image는 73%의 정확도를 보였는데, 이는 FLUX.1-dev의 55.6%를 크게 웃도는 수치입니다. 실제로 “OPEN”이라는 네온사인이나 “Welcome to AI Town” 같은 복잡한 텍스트도 비교적 정확하게 렌더링할 수 있다고 합니다.
360만 개 고품질 이미지로 학습
GLM-Image의 성능 비결은 엄선된 학습 데이터에 있습니다. 연구팀은 360만 개의 고품질 이미지를 직접 큐레이션했습니다. 여기에는 복잡한 시각적 디테일, 다양한 예술 스타일, 그리고 정확한 텍스트가 포함된 이미지들이 포함되어 있죠.
모델 아키텍처는 Diffusion Transformer(DiT)를 기반으로 합니다. 12억 개의 파라미터를 가진 이 모델은 텍스트 인코더로 GLM-4V-9B를 사용하는데, 이는 Zhipu AI가 자체 개발한 멀티모달 언어 모델입니다. 이 텍스트 인코더가 프롬프트를 더 정확하게 이해하는 데 핵심 역할을 한다고 연구팀은 설명합니다.
오픈소스 생태계에 새로운 선택지
GLM-Image는 MIT 라이선스로 공개되어 상업적 이용이 가능합니다. 이미 Hugging Face에 모델 가중치가 공개되었고, ComfyUI와 Diffusers 같은 주요 도구들과도 호환됩니다.
다만 한계도 분명합니다. 사람 얼굴이나 손을 그리는 데는 여전히 어려움을 겪고, 중국어 텍스트 렌더링에 최적화되어 있어 다른 언어에서는 성능이 떨어질 수 있습니다. 또한 1024×1024 해상도로 제한되어 있어 더 큰 이미지를 원하는 사용자에게는 아쉬운 부분입니다.
그럼에도 GLM-Image는 오픈소스 이미지 생성 모델 시장에 중요한 이정표입니다. 텍스트 렌더링이라는 고질적 약점을 개선했고, 성능과 접근성을 동시에 확보했으니까요. Midjourney나 DALL-E 같은 상용 서비스에 대한 오픈소스 대안이 한 단계 더 진화한 셈입니다.
참고자료:
- GLM-Image: A New Contender in Open-Source Image Generation – Stable Diffusion Art
- GLM-Image Model Card – Hugging Face

답글 남기기