Qwen VLo 출시: 이미지를 이해하고 생성하는 새로운 멀티모달 AI

2025-07-03

﹒

3 minutes

Alibaba의 Qwen 팀이 새로운 멀티모달 AI 모델 Qwen VLo를 공개했습니다. 이 모델은 기존의 이미지 이해 기능을 넘어서, 자연어 명령만으로 이미지를 직접 생성하고 편집할 수 있는 통합형 AI입니다. 현재 프리뷰 버전으로 Qwen Chat을 통해 체험해볼 수 있습니다.

Qwen VLo 메인 이미지
출처: Qwen 공식 블로그

Qwen VLo란 무엇인가?

Qwen VLo는 ‘이해(Understanding)’와 ‘생성(Generation)’을 결합한 통합 멀티모달 AI 모델입니다. 기존 Qwen 시리즈가 이미지를 보고 설명하는 ‘이해’ 중심이었다면, VLo는 여기에 이미지를 직접 ‘창조’하는 능력을 추가했습니다.

사용자는 “귀여운 고양이 그림을 그려줘”라고 요청하거나, 기존 이미지를 업로드한 후 “이 고양이 머리에 모자를 씌워줘”처럼 편집 명령을 내릴 수 있습니다. 모든 과정이 자연어로 이뤄지기 때문에 복잡한 이미지 편집 도구를 익힐 필요가 없습니다.

주요 특징들

1. 점진적 이미지 생성 방식

Qwen VLo의 가장 독특한 특징은 점진적 생성 방식입니다. 대부분의 AI 이미지 생성 모델이 전체 이미지를 한 번에 만드는 것과 달리, VLo는 좌에서 우로, 위에서 아래로 순차적으로 이미지를 구성해 나갑니다.

이 방식은 특히 텍스트가 많이 포함된 포스터나 광고 제작에 유리합니다. 생성 과정을 실시간으로 확인할 수 있어 중간에 수정이나 조정이 필요한 경우 더 정밀한 제어가 가능하기 때문입니다.

2. 자연어 기반 이미지 편집

기존 이미지 편집 도구들이 복잡한 메뉴와 기능을 요구했다면, Qwen VLo는 모든 것을 자연어로 해결합니다.

지원되는 편집 기능들:

스타일 변환: “이 그림을 고흐 스타일로 바꿔줘”
배경 교체: “배경을 화창한 하늘로 바꿔줘”
객체 추가/제거: “이 사진에 선글라스를 추가해줘”
색상 변경: “이 차를 빨간색으로 바꿔줘”
복합 편집: 여러 작업을 한 번의 명령으로 동시 처리

더 나아가 객체 탐지, 세그멘테이션, 엣지 검출 같은 전통적인 컴퓨터 비전 작업도 간단한 편집 명령으로 수행할 수 있습니다.

3. 다양한 해상도와 비율 지원

Qwen VLo는 동적 해상도 훈련을 통해 임의의 해상도와 종횡비를 지원합니다. 정사각형 이미지부터 4:1이나 1:3 같은 극단적 비율까지 다양한 포맷의 이미지를 생성할 수 있어, 웹 배너, 소셜 미디어 커버, 포스터 등 용도에 맞는 이미지를 자유롭게 만들 수 있습니다.

4. 다국어 지원

중국어와 영어를 모두 지원하여 언어에 관계없이 동일한 품질의 결과를 제공합니다. 글로벌 사용자들이 각자의 언어로 편리하게 이용할 수 있습니다.

실제 활용 예시

Qwen 팀이 공개한 데모에서는 다음과 같은 활용 사례들을 확인할 수 있습니다:

이미지 생성 및 편집:

텍스트 프롬프트만으로 새 이미지 생성
기존 이미지의 배경, 스타일, 객체 변경
만화 스타일을 실사로, 또는 그 반대로 변환
인물을 풍선으로 바꾸는 등 창의적 변형

복합 작업:

포스터나 광고 이미지 제작
여러 객체를 조합한 복잡한 이미지 생성
한 번의 명령으로 다단계 편집 수행

분석 및 주석:

이미지 내 객체 탐지 및 분할
엣지 검출 및 깊이 맵 생성
생성된 이미지의 내용 재분석 및 설명

AI 이미지 편집 도구
출처: Unsplash

접근 방법

현재 Qwen VLo는 프리뷰 버전으로 Qwen Chat을 통해 체험할 수 있습니다. 사용법은 매우 간단합니다:

이미지 생성: “귀여운 고양이 그림을 그려줘”와 같은 프롬프트 입력
이미지 편집: 기존 이미지를 업로드한 후 “고양이 머리에 모자를 씌워줘”와 같은 편집 명령 입력

별도의 복잡한 설정이나 학습 과정 없이 바로 사용할 수 있어 접근성이 매우 높습니다.

현재 한계점

Qwen 팀은 현재 버전의 한계점들을 투명하게 공개했습니다:

생성 과정에서 부정확한 결과가 나올 수 있음
원본 이미지와의 일관성이 떨어지는 경우 발생
복잡한 명령어를 완전히 이해하지 못하는 상황
생성된 이미지의 인식 및 이해 불안정성

이러한 한계점들은 향후 업데이트를 통해 지속적으로 개선될 예정입니다.

기술적 의미

Qwen VLo의 출시는 멀티모달 AI 발전에서 중요한 이정표입니다. 이해와 생성을 통합한 모델이 상용 서비스로 제공되면서, AI가 단순한 분석 도구를 넘어 창작 파트너로 진화하고 있음을 보여줍니다.

특히 점진적 생성 방식과 자연어 기반 편집 인터페이스는 향후 이미지 생성 AI의 발전 방향을 제시하고 있습니다. 사용자가 생성 과정을 실시간으로 모니터링하고 조정할 수 있다는 점에서, 보다 인터랙티브하고 제어 가능한 AI 도구의 가능성을 열어두고 있습니다.

Qwen VLo는 현재 프리뷰 단계이지만, 멀티모달 AI의 새로운 가능성을 제시하는 주목할 만한 발전입니다. 향후 안정성과 정확성이 개선되면 창작 분야뿐만 아니라 교육, 마케팅, 콘텐츠 제작 등 다양한 영역에서 활용도가 크게 높아질 것으로 기대됩니다.

참고자료:

Like?

AI 도구 AI 출시 Alibaba AI Qwen VLo 멀티모달 AI 새로운 기술 이미지 생성 이미지 편집 자연어 편집 점진적 생성

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

Qwen VLo 출시: 이미지를 이해하고 생성하는 새로운 멀티모달 AI

Qwen VLo란 무엇인가?

주요 특징들

1. 점진적 이미지 생성 방식

2. 자연어 기반 이미지 편집

3. 다양한 해상도와 비율 지원

4. 다국어 지원

실제 활용 예시

접근 방법

현재 한계점

기술적 의미

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

RAG가 그럴듯한 답을 내놓고도 틀리는 이유, 세 도구가 보는 방식

AI 에이전트가 매번 처음부터 시작하는 이유, 정보가 아니라 재사용의 문제였다

Claude Code 리드가 “이제 프롬프트 안 짠다, 루프를 짠다”고 말한 이유

Muse Spark 1.1, 메타가 내놓은 “개인 에이전트”의 실체