알리바바가 공개한 Qwen Image – 한국어 텍스트까지 완벽하게 렌더링하는 AI 이미지 생성 모델

2025-10-01

﹒

4 minutes

알리바바의 Qwen 팀이 2025년 8월 공개한 Qwen Image는 200억 개 파라미터를 가진 MMDiT(Multimodal Diffusion Transformer) 아키텍처 기반의 오픈소스 AI 이미지 생성 모델로, 기존 모델들이 어려워했던 복잡한 텍스트 렌더링과 정밀한 이미지 편집 기능을 동시에 제공합니다.

Qwen Image로 생성한 복잡한 판타지 장면 – 텍스트와 이미지가 정밀하게 조화

Qwen Image가 특별한 이유

1. 혁신적인 텍스트 렌더링 기술

Qwen Image의 가장 큰 특징은 AI 이미지 생성 분야에서 오랫동안 난제였던 텍스트 렌더링을 획기적으로 개선했다는 점입니다. 30조 개 이상의 토큰으로 구성된 119개 언어 데이터셋으로 훈련되어, 한국어나 중국어 같은 복잡한 표의문자부터 영어 같은 표음문자까지 정확하게 표현할 수 있습니다.

공식 테스트 결과:

다중 행 레이아웃과 단락 수준의 텍스트 처리
포스터, 간판, 서류 등 다양한 맥락에서의 자연스러운 텍스트 통합
GenEval, DPG, LongText-Bench 등 주요 벤치마크에서 최고 성능 달성

특히 중국어 텍스트 렌더링에서는 기존 SOTA 모델들을 크게 앞서는 성능을 보여주며, 이는 한국어에서도 유사한 우수한 결과를 기대할 수 있음을 의미합니다.

2. 정밀한 이미지 편집과 이해 능력

Qwen Image는 단순한 이미지 생성을 넘어 고도의 편집 기능을 제공합니다. 스타일 변경, 객체 추가/제거, 세부 요소 조정뿐만 아니라 객체 탐지, 의미론적 분할, 깊이 추정, 엣지 검출, 새로운 시점 합성, 초해상도 등 다양한 이미지 이해 작업도 수행할 수 있습니다.

2025년 9월에는 Qwen-Image-Edit-2509가 출시되어 다중 이미지 편집 지원과 향상된 일관성을 제공합니다. 인물 편집 일관성, 제품 편집 일관성, 텍스트 편집 일관성이 크게 개선되었으며, ControlNet 기능도 기본 지원합니다.

3. 완전한 오픈소스 접근성

Apache 2.0 라이선스로 완전히 오픈소스화되어 있어 상업적 용도로도 자유롭게 사용할 수 있습니다. GitHub, Hugging Face, ModelScope 등 주요 플랫폼에서 모델 가중치와 코드를 모두 공개하고 있으며, 개인 서버에서 자유롭게 실행할 수 있어 데이터 프라이버시를 보장하면서도 비용 부담 없이 활용할 수 있습니다.

공식 지원 채널:

GitHub: https://github.com/QwenLM/Qwen-Image
Hugging Face: https://huggingface.co/Qwen/Qwen-Image
공식 블로그: https://qwenlm.github.io/blog/qwen-image/
Qwen Chat 데모: https://chat.qwen.ai/ (이미지 생성 선택)

Qwen Image의 MMDiT(Multimodal Diffusion Transformer) 아키텍처

ComfyUI와 Python으로 Qwen Image 활용하기

시스템 요구사항

최소 VRAM: 4GB (FP8 양자화 사용 시)
권장 VRAM: 8GB 이상
저장 공간: 약 20GB (모든 모델 파일 포함)
Python 환경: transformers>=4.51.3, 최신 diffusers 라이브러리

Python 환경에서 직접 사용하기

from diffusers import DiffusionPipeline
import torch

model_name = "Qwen/Qwen-Image"

# GPU 사용 가능시 설정
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

# 파이프라인 로드
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)

# 프롬프트 품질 향상을 위한 매직 워드
positive_magic = {
    "en": ", Ultra HD, 4K, cinematic composition.",
    "zh": ", 超清，4K，电影级构图."
}

# 한국어 텍스트가 포함된 이미지 생성
prompt = '''한국 전통 카페 입구에 "오늘의 커피 - 아메리카노 3,000원" 이라고 쓰인 칠판 간판이 있고, 따뜻한 조명, 나무 인테리어, 빈티지 분위기'''

# 다양한 화면 비율 지원
aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1104),
    "3:4": (1104, 1472)
}

width, height = aspect_ratios["16:9"]

image = pipe(
    prompt=prompt + positive_magic["zh"],
    negative_prompt=" ",
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]

image.save("korean_cafe.png")

ComfyUI 워크플로 설정

ComfyUI에서 Qwen Image를 사용하려면 다음 단계를 따르세요:

1단계: 환경 업데이트

# ComfyUI Manager에서 "Update ComfyUI" 선택 후 재시작
pip install git+https://github.com/huggingface/diffusers

2단계: 필수 모델 파일 다운로드

qwen_image_fp8_e4m3fn.safetensors → ComfyUI/models/diffusion_models/
qwen_2.5_vl_7b_fp8_scaled.safetensors → ComfyUI/models/text_encoders/
qwen_image_vae.safetensors → ComfyUI/models/vae/
Qwen-Image-Lightning-8steps-V2.0.safetensors → ComfyUI/models/loras/ (고속화용)

3단계: 워크플로 실행
Lightning LoRA를 사용하면 RTX 4090에서 약 15초만에 고품질 이미지를 생성할 수 있습니다. 시드 값을 변경하여 다양한 결과를 얻을 수 있습니다.

Google Colab에서 무료 체험

GPU가 없어도 Google Colab에서 Qwen Image를 체험할 수 있습니다. 공식 ComfyUI 노트북에서 “Qwen_Image” 모델을 선택하면 클라우드 환경에서 바로 사용할 수 있습니다.

실제 성능 비교

텍스트 렌더링 테스트

한국어 “사랑해” 간판을 든 인물 이미지 생성에서 Qwen Image는 Stable Diffusion XL 대비 압도적으로 뛰어난 결과를 보여줍니다. 글자가 명확하고 자연스럽게 렌더링되며, 폰트도 일관성 있게 표현됩니다.

처리 속도와 효율성

Lightning 모드: 8단계만으로 고품질 이미지 생성
표준 모드: 더 높은 품질이지만 약간 느린 처리
메모리 최적화: FP8 양자화로 4GB VRAM에서도 실행 가능

Google Colab에서도 Qwen Image를 무료로 체험할 수 있습니다

활용 분야와 팁

마케팅과 광고

다국어 포스터 제작
브랜드 일관성을 유지한 시각 콘텐츠
소셜 미디어용 그래픽

교육 콘텐츠

설명이 포함된 교육용 다이어그램
다국어 학습 자료
인포그래픽 제작

프롬프트 최적화 팁

공식적으로 제공되는 Qwen-Plus 기반 프롬프트 향상 도구를 사용하면 더 나은 결과를 얻을 수 있습니다:

from tools.prompt_utils import rewrite
enhanced_prompt = rewrite(original_prompt)

한계점과 고려사항

Qwen Image는 혁신적이지만 몇 가지 제약이 있습니다. 텍스트가 때로는 포토샵으로 합성한 것처럼 보일 수 있고, 매우 복잡한 다중 언어 텍스트에서는 일부 정확도가 떨어질 수 있습니다. 또한 ControlNet 같은 고급 제어 도구들이 아직 성숙하지 않아 Stable Diffusion 생태계만큼 풍부하지는 않습니다.

하지만 오픈소스의 자유로움과 뛰어난 텍스트 렌더링 능력은 이러한 단점들을 충분히 상쇄합니다. 특히 한국어나 중국어 텍스트가 포함된 이미지를 생성해야 하는 프로젝트에서는 현재 가장 실용적인 선택지입니다.

참고자료:

Like?

AI 이미지 생성 ComfyUI MMDiT Qwen Image 다국어 지원 알리바바 오픈소스 AI 이미지 편집 텍스트 렌더링

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup