AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

이미지 생성 단계 40→4로, Qwen Image 2.0의 압축과 증류 전략

모델은 20B에서 7B로 줄었는데, 성능은 오히려 올랐습니다. 같은 작업을 40단계가 아닌 4단계로 끝냅니다. 이게 어떻게 가능한지, 그 안에 두 가지 기술적 선택이 있습니다.

사진 출처: Qwen 공식 블로그

알리바바 Qwen팀이 2026년 2월 10일 Qwen-Image-2.0을 공개했습니다. 이미지 생성과 편집을 하나의 모델로 통합한 7B 파라미터 모델로, 이전 세대(Qwen-Image, 20B)보다 파라미터 수는 3분의 1 수준으로 줄었지만 GenEval, DPG, HPSv2.1 등 주요 벤치마크에서 FLUX.1-dev와 SD3-Medium을 앞서는 결과를 냈습니다.

출처: Qwen-Image-2.0 공식 블로그 – Alibaba Qwen

VAE 압축률을 두 배로 올리면 생기는 일

이미지 생성 모델은 원본 이미지를 그대로 다루지 않습니다. 먼저 이미지를 훨씬 작은 ‘잠재 공간(latent space)’으로 압축한 뒤, 그 공간 안에서 확산(diffusion) 과정이 진행됩니다. 이 압축을 담당하는 부분이 VAE(Variational Autoencoder)입니다.

Qwen-Image 1.0은 VAE 압축률이 8x였습니다. 이미지를 가로세로 각각 8분의 1 크기의 잠재 표현으로 줄였다는 뜻입니다. Qwen-Image-2.0은 이걸 16x로 올렸습니다. 잠재 공간이 훨씬 더 작아진 셈인데, 이 변화가 이후 모든 것에 영향을 줍니다.

잠재 공간이 작을수록 모델이 처리해야 할 데이터양이 줄어듭니다. 확산 과정 자체의 계산 부담이 낮아지고, 메모리 사용량도 함께 줄어듭니다. 그런데 문제는 더 많이 압축할수록 정보가 손실될 위험도 커진다는 것입니다. Qwen팀이 해결해야 했던 과제는 16x 압축을 하면서도 텍스처, 조명, 색상 같은 세부 요소를 복원 시 얼마나 살려낼 수 있느냐였습니다.

40단계를 4단계로 줄이는 법

확산 모델은 순수한 노이즈에서 출발해 조금씩 노이즈를 제거하며 이미지를 만들어냅니다. 전통적으로 이 과정은 40단계 이상의 반복이 필요했고, 단계마다 신경망 추론이 한 번씩 돌아가므로 시간이 오래 걸립니다.

Qwen-Image-2.0은 여기에 프로그레시브 디스틸레이션(progressive distillation)을 적용했습니다. 작동 방식은 이렇습니다.

  1. 40단계로 이미지를 생성하는 큰 원본 모델(teacher)을 준비합니다.
  2. 학생 모델(student)은 teacher가 40단계에서 만든 최종 결과물을 목표로 학습합니다.
  3. teacher의 중간 과정을 모방하는 게 아니라, 더 적은 단계로 동일한 최종 출력에 도달하도록 훈련됩니다.
  4. 이 과정을 여러 단계에 걸쳐 점진적으로 반복하면서 최종적으로 4단계까지 줄입니다.

결과적으로 추론 속도가 기존 대비 최대 10배 빨라졌고, 고사양 GPU에서는 생성 시간이 1초 이하로 내려왔습니다.

생성과 편집을 하나로

Qwen-Image 1.0은 생성 모델과 편집 모델이 분리되어 있었습니다. 이미지를 만들고 싶으면 생성 모델을, 기존 이미지를 수정하고 싶으면 편집 모델을 따로 써야 했죠. FLUX나 Midjourney도 마찬가지 구조입니다.

Qwen-Image-2.0은 두 기능을 7B 단일 모델에 통합했습니다. 아키텍처는 8B Qwen3-VL 인코더와 7B 확산 디코더를 결합한 구조로, 1,000 토큰 길이의 프롬프트를 받아 최대 2,048×2,048 해상도로 출력합니다. 1차 생성 후 같은 모델 안에서 편집을 이어갈 수 있어, 모델 간 전달 과정에서 생기는 품질 저하 없이 작업을 이어갈 수 있습니다.

텍스트 렌더링도 이번 모델의 핵심 설계 목표 중 하나입니다. AI 이미지 생성에서 텍스트가 제대로 그려지지 않는 건 오랜 약점이었는데, Qwen-Image-2.0은 한국어·중국어·영어 혼합 텍스트, 포스터 레이아웃, 인포그래픽, PPT 슬라이드 형식까지 처리할 수 있도록 설계됐습니다.

작아졌는데 왜 잘 되나

7B가 20B보다 벤치마크에서 앞서는 건 단순히 학습 데이터나 기법의 개선만으로 설명되지 않습니다. VAE 압축률 개선으로 확산 과정이 더 컴팩트한 공간에서 작동하게 되었고, 인코더를 이미지 이해에 강점이 있는 Qwen3-VL로 교체하면서 텍스트-이미지 정렬이 개선된 것이 복합적으로 작용했습니다.

파라미터가 줄어든 만큼 API 비용과 추론 속도에도 변화가 있습니다. 16GB VRAM GPU에서도 구동 가능한 수준이어서, 이전 세대 20B 모델 대비 로컬 배포 가능성도 넓어졌습니다. 현재는 API 전용(Alibaba Cloud DashScope)으로 제공되고 있으며, 오픈 가중치 공개 여부는 아직 확정되지 않았습니다.

기술 구조와 벤치마크 상세 결과는 공개된 기술 보고서에서 확인할 수 있습니다.


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다