
비전-언어 AI 모델(Vision-Language Models)은 컴퓨터 비전과 자연어 처리 기술을 결합하여 이미지와 텍스트 정보를 동시에 이해하고 처리할 수 있는 AI 시스템입니다. 최근 알리바바 그룹에서 개발한 Qwen2.5-VL은 이 분야에서 큰 도약을 이룬 최신 플래그십 모델로, 기존의 Qwen2-VL에서 한층 더 발전된 능력을 갖추고 있습니다.
Qwen2.5-VL의 주요 특징
Qwen2.5-VL은 3B, 7B, 72B 세 가지 크기로 출시되었으며, 베이스 모델과 인스트럭트 모델 모두 공개되어 있습니다. 이 모델은 다음과 같은 주요 특징을 가지고 있습니다:
1. 고급 시각적 이해 능력
Qwen2.5-VL은 일반적인 사물 인식을 넘어 텍스트, 차트, 아이콘, 그래픽, 레이아웃 등 이미지 내 다양한 요소를 분석할 수 있습니다. 꽃, 새, 물고기, 곤충과 같은 일반적인 대상뿐만 아니라, 전 세계 유명 건축물, 자연 경관, 영화와 TV 시리즈의 IP까지 인식 가능한 카테고리가 매우 광범위합니다.
Qwen2.5-VL의 세계 관광지 인식 능력. 각 이미지에 대해 영어와 중국어로 이름을 제공합니다.
2. 에이전트 역할 수행
Qwen2.5-VL은 추론하고 도구를 동적으로 지시할 수 있는 시각적 에이전트 역할을 수행할 수 있습니다. 이를 통해 컴퓨터나 스마트폰 사용 지원과 같은 작업을 수행할 수 있습니다. 이는 기존 모델들이 별도의 태스크 특화 파인튜닝 없이는 어려웠던 부분입니다.
3. 장시간 비디오 이해 및 이벤트 파악
1시간 이상의 긴 비디오를 이해하고, 관련 비디오 세그먼트를 정확히 찾아내는 이벤트 캡처 능력을 새롭게 갖추었습니다. 시간적 처리 측면에서 동적 프레임 레이트(FPS) 훈련과 절대 시간 인코딩 기술을 도입하여, 시간 단위의 초장편 비디오 이해뿐만 아니라 초 단위의 이벤트 위치 파악까지 가능합니다.
4. 정확한 시각적 위치 파악
이미지 내 객체의 위치를 바운딩 박스나 포인트 생성을 통해 정확하게 파악할 수 있으며, 좌표와 속성에 대한 안정적인 JSON 출력을 제공합니다. 이러한 향상된 위치 파악 능력은 시각적 추론의 기반이 됩니다.
Qwen2.5-VL이 이미지 내 오토바이 운전자를 감지하고 헬멧 착용 여부를 판단하는 예시
5. 구조화된 출력 생성
청구서, 양식, 표 등과 같은 데이터에 대해 구조화된 출력을 지원하여 금융, 상업 등의 분야에서 활용할 수 있습니다. 특히 QwenVL HTML이라는 독특한 문서 파싱 형식을 설계하여 HTML 기반으로 레이아웃 정보를 추출합니다. 이 기술은 잡지, 연구 논문, 웹 페이지, 모바일 스크린샷 등 다양한 시나리오에서 문서 파싱을 수행할 수 있습니다.
모델 성능 비교
Qwen2.5-VL은 다양한 벤치마크에서 경쟁 모델들과 비교하여 뛰어난 성능을 보여주고 있습니다. 플래그십 모델인 Qwen2.5-VL-72B-Instruct는 대학 수준의 문제, 수학, 문서 이해, 일반 질문 응답, 비디오 이해 등 다양한 영역에서 경쟁력 있는 성능을 달성했습니다.
Qwen2.5-VL과 다른 주요 모델들의 성능 비교
소형 모델들의 경우에도 놀라운 성능을 보여줍니다. Qwen2.5-VL-7B-Instruct는 여러 태스크에서 GPT-4o-mini를 능가하며, 엣지 AI 솔루션인 Qwen2.5-VL-3B는 이전 버전인 Qwen2-VL의 7B 모델보다도 우수한 성능을 보입니다.
최근 출시된 Qwen2.5-VL-32B-Instruct 모델은 강화 학습을 통해 최적화되어 다음과 같은 특징을 갖습니다:
- 인간 선호도에 더 부합하는 응답 제공
- 복잡한 수학 문제 해결 정확도 크게 향상
- 이미지 파싱, 콘텐츠 인식, 시각적 논리 추론과 같은 태스크에서 세밀한 이해 및 분석 능력 향상
모델 아키텍처 업데이트
Qwen2.5-VL은 이전 모델과 비교하여 시간적, 공간적 스케일 인식을 강화하고 네트워크 구조를 단순화하여 모델 효율성을 개선했습니다.
시간 및 이미지 크기 인식
공간적 차원에서 Qwen2.5-VL은 다양한 크기의 이미지를 동적으로 다양한 길이의 토큰으로 변환할 뿐만 아니라, 감지 상자 및 점과 같은 좌표를 이미지의 실제 크기 스케일을 사용하여 직접 표현합니다. 이를 통해 모델이 이미지의 스케일을 직접 학습할 수 있습니다.
시간적 차원에서는 동적 FPS(Frames Per Second) 훈련과 절대 시간 인코딩을 도입하여, mRoPE ID를 시간의 속도와 직접 연결합니다. 이를 통해 모델이 시간 차원 ID의 간격을 통해 시간의 흐름을 학습할 수 있습니다.
Qwen2.5-VL의 모델 아키텍처
효율적인 시각 인코더
시각 인코더는 멀티모달 대규모 모델에서 중요한 역할을 합니다. Qwen2.5-VL 팀은 CLIP, 비전-언어 모델 정렬, 엔드투엔드 훈련 단계를 포함하는 네이티브 동적 해상도 ViT를 처음부터 훈련했습니다.
멀티모달 대규모 모델의 훈련 및 테스트 단계에서 ViT의 부하 불균형 문제를 해결하기 위해 Window Attention을 도입하여 ViT 측의 계산 부하를 효과적으로 줄였습니다. 전체 네트워크 구조를 단순화하기 위해 RMSNorm 및 SwiGLU 구조를 채택하여 ViT 아키텍처를 LLM과 더 일관되게 만들었습니다.
비즈니스 및 산업적 응용
Qwen2.5-VL의 고급 기능은 다양한 산업 분야에서 활용될 수 있습니다:
- 소매 및 전자상거래: 제품 이미지 인식, 시각적 검색, 제품 카탈로그 자동화
- 금융 서비스: 문서 처리, 청구서 및 영수증 디지털화, 금융 문서 분석
- 의료 및 헬스케어: 의료 영상 해석 지원, 의료 문서 분석
- 제조업: 품질 관리, 결함 감지, 시각적 검사 자동화
- 미디어 및 엔터테인먼트: 비디오 콘텐츠 분석, 자동 자막 생성, 콘텐츠 모더레이션
- 교육: 시각적 학습 자료 생성, 교육 콘텐츠 분석
- 보안 및 감시: 이상 행동 감지, 객체 추적, 보안 영상 분석
이러한 응용은 기업들이 자동화를 개선하고, 정확한 의사 결정을 내리며, 고객 경험을 향상시키는 데 도움을 줄 수 있습니다.
향후 전망
Qwen 팀은 가까운 미래에 모델의 문제 해결 및 추론 능력을 더욱 강화하고, 더 많은 모달리티를 통합할 계획입니다. 이를 통해 모델이 더 스마트해지고 다양한 유형의 입력과 태스크를 처리할 수 있는 통합 옴니 모델로 발전할 것으로 예상됩니다.
특히 Qwen2.5-VL-32B는 강화 학습을 통해 주관적 경험과.수학적 추론을 최적화하는 “빠른 사고” 패러다임 내에서 운영되었습니다. 앞으로의 연구 방향은 “긴 효과적인 추론 프로세스”에 우선순위를 두어 매우 복잡한 다단계 시각적 추론 작업을 해결하는 데 있어 시각 모델의 경계를 넓히는 것이 될 것입니다.
비전-언어 모델 기술의 빠른 발전은 AI가 우리의 시각적 세계를 더 깊게 이해하고 상호작용할 수 있게 만들고 있습니다. Qwen2.5-VL과 같은 최첨단 모델은 기업과 연구자들에게 이미지, 비디오, 문서 등 시각 데이터를 처리하고 분석하는 강력한 도구를 제공합니다. 이러한 기술이 계속 발전함에 따라, 우리는 AI가 더욱 다양한 응용 분야에서 혁신을 이끌어낼 것으로 기대할 수 있습니다.
Comments