AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

Qwen-Image-Edit: 이미지 속 텍스트까지 완벽 편집하는 AI의 등장

Alibaba가 출시한 Qwen-Image-Edit는 이미지 편집 분야에 새로운 기준을 제시합니다. 기존 도구들과 달리 중국어와 영어 텍스트를 정밀하게 편집하고, 의미적 변환과 외관 수정을 동시에 지원해 콘텐츠 제작의 효율성을 크게 높여줍니다.

Qwen-Image-Edit 메인 이미지
Qwen-Image-Edit의 다양한 편집 기능을 보여주는 예시 (출처: Qwen 공식 블로그)

기존 이미지 편집 도구의 한계점

현재 시장의 AI 이미지 편집 도구들은 몇 가지 공통적인 문제점을 가지고 있습니다. Adobe Firefly나 Midjourney 같은 도구들은 전체적인 스타일 변환에는 뛰어나지만, 세밀한 텍스트 편집이나 특정 영역만 수정하는 작업에는 한계가 있었습니다.

특히 한국어나 중국어 같은 동아시아 언어의 텍스트 편집은 더욱 어려운 과제였습니다. 기존 도구들은 영어 텍스트도 원본의 폰트나 크기, 스타일을 유지하면서 수정하기 어려웠죠.

Qwen-Image-Edit의 혁신적 접근법

이중 제어 시스템의 힘

Qwen-Image-Edit의 가장 큰 차별점은 ‘이중 제어 시스템’입니다. 하나의 입력 이미지를 두 가지 방식으로 동시에 처리합니다:

  • Qwen2.5-VL: 이미지의 의미적 내용을 이해하고 제어
  • VAE 인코더: 시각적 외관과 세부사항을 관리

이 접근법 덕분에 사용자는 두 가지 편집 모드를 선택할 수 있습니다.

의미적 편집 vs 외관 편집

의미적 편집(Semantic Editing)은 이미지의 전체적인 픽셀이 변경되더라도 핵심 의미를 유지하는 편집입니다. 예를 들어:

  • 캐릭터의 포즈나 각도 변경
  • 아트 스타일 변환 (사실적 → 애니메이션 스타일)
  • 객체의 180도 회전으로 뒷면 보여주기

외관 편집(Appearance Editing)은 특정 영역만 정밀하게 수정하면서 나머지 부분은 완전히 그대로 유지하는 편집입니다:

  • 간판 추가 시 자연스러운 반사 효과까지 생성
  • 머리카락 같은 세밀한 요소 제거
  • 배경이나 의상만 선택적으로 변경
간판 추가 예시
펭귄 서식지에 간판을 추가하면서 자연스러운 반사까지 생성하는 모습 (출처: Qwen 공식 블로그)

게임 체인저: 정밀 텍스트 편집

이중 언어 지원의 의미

Qwen-Image-Edit의 가장 주목할 만한 기능은 중국어와 영어 텍스트를 정밀하게 편집할 수 있다는 점입니다. 이는 단순히 언어를 지원한다는 의미를 넘어섭니다:

  • 원본 스타일 보존: 폰트, 크기, 색상을 그대로 유지
  • 자연스러운 배치: 텍스트가 이미지에 자연스럽게 어우러짐
  • 단계별 수정: 복잡한 한자도 여러 단계로 나누어 정확히 교정

실무 활용 시나리오

마케팅 팀: 다국가 캠페인용 포스터의 텍스트를 언어별로 쉽게 변경

  • ‘Health Insurance’ → ‘Financial Planning’ 변경 시 스크래블 타일의 질감과 배치까지 유지

디자이너: 클라이언트 요청에 따른 실시간 텍스트 수정

  • 브랜드명이나 슬로건 변경 시 전체 디자인 다시 작업할 필요 없음

콘텐츠 제작자: 생성된 이미지의 오타나 잘못된 텍스트 즉시 수정

  • AI가 생성한 서예 작품의 잘못된 한자를 단계별로 교정
텍스트 편집 예시
스크래블 타일의 질감을 유지하면서 텍스트만 정확히 변경하는 모습 (출처: Qwen 공식 블로그)

창작 도구로서의 활용 가능성

IP 캐릭터 확장의 새로운 가능성

Qwen-Image-Edit는 기존 캐릭터를 바탕으로 무한한 변형을 만들어낼 수 있습니다. Qwen의 마스코트인 카피바라를 이용한 예시에서 볼 수 있듯이:

  • 화가, 요리사, 기타리스트 등 다양한 직업으로 변신
  • MBTI 16가지 성격 유형별 이모지 팩 제작
  • 캐릭터의 일관성은 유지하면서 표현 방식 다양화

이는 기업의 브랜딩이나 개인 창작자의 IP 확장에 혁신적인 도구가 될 수 있습니다.

새로운 시각 합성 기능

180도 회전 기능은 특히 흥미롭습니다. 정면 사진만 있어도 뒷모습을 자연스럽게 생성할 수 있어:

  • 제품 카탈로그: 한 장의 사진으로 모든 각도 제공
  • 캐릭터 디자인: 설정집 제작 시 다양한 각도 자동 생성
  • 건축 시각화: 건물의 모든 면을 한 번에 보여주기

기술적 우수성과 성능

벤치마크 성과

Qwen-Image-Edit는 여러 공개 벤치마크에서 최고 수준의 성능을 기록했습니다:

  • GEdit-Bench: 영어 7.56점, 중국어 7.52점으로 GPT Image 1 넘어서
  • ImgEdit: 전체 4.27점, 객체 교체 4.66점, 스타일 변경 4.81점
  • 깊이 추정: KITTI 데이터셋에서 0.078 AbsRel 달성

이러한 수치는 단순한 성능 지표를 넘어, 실제 업무에서 신뢰할 수 있는 결과를 제공한다는 의미입니다.

기술 아키텍처의 혁신

20억 개 파라미터를 가진 Qwen-Image 모델을 기반으로 하되, 편집에 특화된 구조를 추가했습니다:

  • MMDiT(Multimodal Diffusion Transformer): 텍스트와 이미지를 동시에 처리
  • MSRoPE 인코딩: 편집 전후 이미지를 구분하여 처리
  • 개선된 VAE: 텍스트가 많은 이미지에서 36.63 PSNR 달성

실제 사용법과 접근성

다양한 사용 방법

Qwen-Image-Edit는 여러 경로로 접근할 수 있습니다:

  1. Qwen Chat: 웹 브라우저에서 바로 ‘이미지 편집’ 기능 이용
  2. Hugging Face: 개발자를 위한 API 제공
  3. GitHub: 오픈소스로 코드 공개
  4. Alibaba Cloud: 대규모 서비스용 API 제공

간단한 사용 예시

from diffusers import QwenImageEditPipeline
import torch
from PIL import Image

pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
pipeline.to(torch.bfloat16).to("cuda")

image = Image.open("input.png").convert("RGB")
prompt = "토끼의 색을 보라색으로 바꾸고, 번개 배경을 추가해주세요."
output = pipeline(image=image, prompt=prompt, num_inference_steps=50, true_cfg_scale=4.0).images
output.save("output.png")

이처럼 몇 줄의 코드만으로도 강력한 편집 기능을 구현할 수 있습니다.

경쟁 도구들과의 차별점

기존 도구들의 한계

FLUX.1 ContextAdobe Firefly 같은 기존 도구들은 몇 가지 한계가 있습니다:

  • 연속 편집 시 아티팩트(불자연스러운 요소) 발생
  • 동아시아 언어 텍스트 편집의 정확도 부족
  • 의미적 일관성과 시각적 정밀도 중 하나만 선택 가능

Qwen-Image-Edit의 우위

  • 단계별 편집: 복잡한 수정도 여러 단계로 나누어 정확히 처리
  • 언어 특화: 중국어 서예까지 정밀하게 수정 가능
  • 통합 접근법: 의미적 편집과 외관 편집을 하나의 모델에서 지원

창작 생태계에 미칠 영향

콘텐츠 제작의 민주화

Qwen-Image-Edit는 전문 디자이너가 아니어도 고품질 이미지 편집을 가능하게 합니다. 이는:

  • 중소기업: 전문 디자이너 없이도 마케팅 자료 제작
  • 개인 창작자: 복잡한 편집 도구 학습 없이 아이디어 구현
  • 교육 분야: 학습 자료나 프레젠테이션 제작 효율성 증대

새로운 창작 워크플로

기존에는 ‘이미지 생성 → 별도 도구로 편집 → 텍스트 추가’의 복잡한 과정이 필요했다면, 이제는 하나의 도구에서 모든 것이 가능합니다. 이는 창작 과정의 속도를 크게 높이고, 더 많은 실험과 시도를 가능하게 만듭니다.

AI 이미지 편집 기술의 발전은 이제 단순한 도구의 개선을 넘어 창작 패러다임 자체를 바꾸고 있습니다. Qwen-Image-Edit는 그 변화의 선두에서 새로운 가능성을 제시하고 있습니다. 특히 동아시아 언어권에서 텍스트 편집의 정확도가 크게 향상된 것은, 우리나라 사용자들에게도 매우 유용한 발전이라고 할 수 있습니다.

참고자료


AI Sparkup 구독하기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments