AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

Qwen-Image: 완벽한 텍스트 렌더링을 실현한 차세대 이미지 생성 AI

Alibaba의 Qwen팀이 출시한 Qwen-Image는 기존 AI 이미지 생성 모델들의 가장 큰 약점이었던 텍스트 렌더링 문제를 혁신적으로 해결한 20B 파라미터 규모의 MMDiT 기반 모델로, 특히 중국어를 포함한 복잡한 다국어 텍스트를 정확하게 처리할 수 있어 실무에서 바로 활용 가능한 포스터, PPT, 간판 제작 등의 새로운 가능성을 열었습니다.

AI 이미지 생성의 ‘텍스트 문제’가 드디어 해결됐다

현재 대부분의 AI 이미지 생성 모델들이 공통적으로 겪고 있는 문제가 하나 있습니다. 바로 이미지 속 텍스트를 제대로 렌더링하지 못한다는 점입니다. “Happy Birthday”라고 써달라고 하면 “Hapy Brithday” 같은 오탈자가 나오거나, 한국어나 중국어 같은 복잡한 문자는 아예 알아볼 수 없게 깨져서 나오는 경우가 대부분이었죠.

Qwen-Image 모델 소개
Qwen-Image는 복잡한 텍스트 렌더링과 정밀한 이미지 편집을 동시에 지원하는 차세대 이미지 생성 AI입니다. (출처: Qwen 공식 블로그)

Alibaba의 Qwen팀이 최근 공개한 Qwen-Image는 이런 한계를 획기적으로 개선한 모델입니다. 이 모델의 가장 큰 특징은 네이티브 텍스트 렌더링 능력입니다. 단순히 영어뿐만 아니라 중국어, 한국어 같은 복잡한 문자 체계도 정확하게 처리할 수 있어, 실제 비즈니스 현장에서 바로 사용할 수 있는 수준의 결과물을 만들어냅니다.

Qwen-Image의 핵심 혁신 기술

1. MMDiT 아키텍처와 자체 개발 텍스트 인코더

Qwen-Image는 20B 파라미터 규모의 MMDiT(Multimodal Diffusion Transformer) 아키텍처를 기반으로 합니다. 여기서 가장 주목할 점은 자체 개발한 다국어 LLM을 텍스트 인코더로 사용한다는 것입니다.

기존 모델들이 주로 CLIP이나 T5를 텍스트 인코더로 사용했던 것과 달리, Qwen-Image는 중국어와 영어에 특화된 LLM을 직접 개발해 텍스트 인코더로 활용했습니다. 이를 통해 복잡한 문화적 맥락과 전문 용어까지도 정확하게 이해하고 표현할 수 있게 되었습니다.

2. Glyph-Aligned ByT5로 완벽한 문자 레벨 처리

텍스트 렌더링의 정확성을 높이기 위해 Glyph-Aligned ByT5 모델을 추가로 도입했습니다. 이는 문자 레벨에서 글자의 모양과 구조를 정확하게 인식하고 재현할 수 있도록 하는 기술입니다. 특히 획이 복잡한 중국어나 한국어 같은 문자에서 그 차이가 극명하게 드러납니다.

3. Scaled ROPE로 다양한 해상도 지원

Scaled ROPE(Rotary Positional Embedding) 기술을 도입해 학습하지 않은 해상도에서도 우수한 성능을 보여줍니다. 이는 다양한 크기와 비율의 이미지 생성이 필요한 실무 환경에서 매우 중요한 기능입니다.

실제 활용 사례: 이제 정말로 ‘실무용’이다

복잡한 중국어 텍스트 렌더링

Qwen-Image의 가장 인상적인 능력 중 하나는 복잡한 중국어 텍스트를 정확하게 렌더링하는 것입니다. 예를 들어, 중국 전통 가게 간판들을 정확한 한자로 표현하거나, 서예 작품의 글자를 자연스럽게 렌더링하는 수준에 이르렀습니다.

중국어 텍스트 렌더링 예시
미야자키 하야오 스타일의 애니메이션에서 “클라우드 스토리지”, “클라우드 컴퓨팅” 등의 한자 간판을 정확하게 렌더링한 예시 (출처: Qwen 공식 블로그)

영어 텍스트도 완벽하게

영어 텍스트 렌더링에서도 기존 모델들을 크게 앞섭니다. 여러 권의 책 제목을 동시에 정확하게 표시하거나, 복잡한 인포그래픽의 모든 텍스트 요소를 완벽하게 처리할 수 있습니다.

포스터와 PPT 제작

이제 AI로 직접 비즈니스용 포스터나 프레젠테이션 슬라이드를 만들 수 있게 되었습니다. 복잡한 레이아웃과 다양한 텍스트 요소가 포함된 전문적인 디자인을 한 번의 프롬프트로 생성할 수 있습니다.

포스터 제작 예시
영화 포스터 형태의 복잡한 텍스트 레이아웃을 완벽하게 처리한 예시 (출처: Qwen 공식 블로그)

벤치마크 성능: 압도적인 우위

텍스트 렌더링 성능 비교

Qwen-Image는 텍스트 렌더링 전용 벤치마크에서 놀라운 성능을 보여줍니다:

  • 중국어 텍스트 정확도: 78% (기존 최고 모델 대비 13%p 향상)
  • 중국어 텍스트 적중률: 82%
  • 영어 텍스트 정확도: 85% 이상

특히 중국어 처리에서는 경쟁 모델들을 크게 앞서며, 복잡한 문화적 맥락이 포함된 텍스트도 정확하게 처리합니다.

다른 AI 모델들과의 성능 비교

최근 한 연구에서 주요 이미지 생성 모델들의 텍스트 렌더링 능력을 비교한 결과, 대부분의 모델들이 50% 미만의 정확도를 보인 반면, Qwen-Image와 같은 차세대 모델들은 훨씬 높은 성능을 보여주고 있습니다. FLUX1.1 Pro나 Stable Image Ultra 같은 최신 모델들도 텍스트 렌더링에서는 여전히 한계를 보이는 상황에서, Qwen-Image의 성과는 더욱 주목받고 있습니다.

기술적 차별화 포인트

기존 솔루션과의 차이점

기존의 텍스트 렌더링 방식들은 대부분 다음과 같은 한계가 있었습니다:

  1. 사전 설정된 텍스트 박스 의존: 미리 정해진 레이아웃에만 텍스트 배치 가능
  2. 언어별 특화 부족: 특히 동아시아 언어 처리 능력 부족
  3. 문화적 맥락 이해 부족: 단순 번역 수준의 처리

Qwen-Image는 이런 한계들을 엔드투엔드 학습을 통해 해결했습니다. 별도의 레이아웃 계획 없이도 자연스러운 텍스트 배치가 가능하고, 문화적 맥락까지 이해해서 적절한 표현을 선택할 수 있습니다.

RLHF를 통한 인간 선호도 최적화

특히 주목할 점은 다단계 RLHF(Reinforcement Learning from Human Feedback) 과정을 거쳐 인간의 선호도에 최적화되었다는 것입니다. 단순히 기술적 정확도뿐만 아니라 실제 사용자들이 선호하는 결과물을 만들어내도록 훈련되었습니다.

앞으로의 전망과 활용 가능성

Qwen-Image의 등장은 AI 이미지 생성 분야에서 새로운 전환점이 될 것으로 보입니다. 특히 다음과 같은 분야에서 즉시 활용 가능합니다:

비즈니스 활용:

  • 마케팅 포스터 및 광고 제작
  • 프레젠테이션 슬라이드 디자인
  • 소셜미디어 콘텐츠 제작
  • 제품 패키징 디자인

교육 및 문화:

  • 다국어 교육 자료 제작
  • 문화 콘텐츠 현지화
  • 전통 문화 요소가 포함된 디자인

기술적 발전:

  • 다른 모델들의 텍스트 렌더링 성능 향상 압박
  • 멀티모달 AI의 새로운 표준 제시

현재 Qwen-Image는 두바오(豆包)와 드리미나(即梦) 등의 플랫폼을 통해 서비스되고 있으며, 앞으로 더 많은 플랫폼에서 만나볼 수 있을 것으로 예상됩니다.

AI 이미지 생성에서 ‘텍스트 문제’가 해결됨으로써, 이제 정말로 실무에서 바로 사용할 수 있는 수준의 콘텐츠 제작이 가능해졌습니다. 특히 동아시아 시장에서는 이런 기술적 진보가 더욱 큰 의미를 가질 것으로 보입니다.


참고자료:


AI Sparkup 구독하기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments