긴 영화에서 특정 장면 하나를 찾으려면 얼마나 걸릴까요? 사람이라면 몇 시간이 걸릴 작업을, Alibaba의 AI 모델 Qwen3-VL은 거의 완벽하게 해냅니다.

Alibaba의 Qwen 팀이 2024년 11월 26일 공개한 Qwen3-VL 기술 보고서는 오픈소스 멀티모달 AI의 새로운 가능성을 보여줍니다. 이 모델의 핵심 능력은 256,000 토큰이라는 긴 컨텍스트 윈도우를 활용해 2시간짜리 영상이나 수백 페이지의 문서를 한 번에 처리한다는 점입니다. 특히 주목할 만한 건 “바늘 찾기(needle-in-a-haystack)” 테스트 결과입니다.
출처: Qwen3-VL Technical Report – arXiv
2시간 영상에서 단 하나의 프레임을 찾아내다
연구팀은 긴 영상 속에 의미 있는 프레임을 무작위로 삽입한 뒤, 모델이 이를 찾아내고 분석할 수 있는지 테스트했습니다. 결과는 놀라웠습니다. 30분짜리 영상에서는 100% 정확도로 특정 프레임을 찾아냈고, 2시간 분량(약 100만 토큰)의 영상에서도 99.5%의 정확도를 유지했죠.
이는 단순히 영상을 “본다”는 차원을 넘어, 방대한 정보 속에서 필요한 내용을 정확히 찾아내는 능력을 의미합니다. 예를 들어 2시간짜리 강의 영상에서 특정 개념이 설명된 부분을 찾거나, 긴 회의 녹화에서 중요한 순간을 찾아내는 것이 가능해집니다.
시각적 수학 문제에서 GPT-5를 능가하다
Qwen3-VL은 여러 벤치마크에서 주목할 만한 성과를 냈습니다. 특히 이미지 기반 수학 문제를 푸는 능력이 뛰어났습니다. MathVista 벤치마크에서 85.8%를 기록해 GPT-5의 81.3%를 앞질렀고, MathVision에서는 74.6%로 Gemini 2.5 Pro(73.3%)와 GPT-5(65.8%)를 모두 뛰어넘었습니다.
문서 이해 능력도 인상적입니다. DocVQA 테스트에서 96.5%의 점수를 기록했고, 39개 언어의 OCR을 지원하며 OCRBench에서 875점을 받았습니다. 이는 이전 모델보다 거의 4배 많은 언어를 처리할 수 있다는 의미입니다.
GUI 자동화 분야에서도 가능성을 보였습니다. ScreenSpot Pro에서 61.8%의 정확도로 그래픽 사용자 인터페이스를 탐색했고, AndroidWorld에서는 63.7%의 성공률로 Android 앱을 독립적으로 조작할 수 있었습니다.
세 가지 핵심 기술 혁신
Qwen3-VL의 성능은 세 가지 주요 아키텍처 개선에서 비롯됩니다.
첫째, “인터리브 MRoPE(Interleaved MRoPE)”를 도입했습니다. 기존 방식은 시간, 가로, 세로 같은 차원별로 수학적 표현을 그룹화했는데, 새로운 방식은 이를 모든 수학적 영역에 고르게 분산시켰습니다. 이 변화가 긴 영상 처리 성능을 크게 향상시켰습니다.
둘째, DeepStack 기술로 비전 인코더의 중간 결과에도 접근할 수 있게 했습니다. 최종 출력만 보는 게 아니라, 처리 과정의 여러 단계에서 나온 시각 정보를 활용할 수 있게 된 것이죠.
셋째, 복잡한 T-RoPE 방식 대신 텍스트 기반 타임스탬프 시스템을 도입했습니다. 모든 비디오 프레임에 수학적 시간 위치를 할당하는 대신, “<3.8초>”처럼 간단한 텍스트 마커를 직접 입력에 삽입합니다. 이렇게 하니 프로세스가 단순해지고 시간 기반 영상 작업에 대한 이해가 개선됐습니다.
1조 토큰 규모의 학습
모델은 최대 10,000개의 GPU를 활용해 4단계로 학습됐습니다. 이미지와 텍스트를 연결하는 방법을 배운 뒤, 약 1조 개의 토큰으로 전체 멀티모달 학습을 진행했습니다. 학습 데이터에는 웹 스크래핑 자료, Common Crawl에서 가져온 300만 개의 PDF, 6천만 개 이상의 STEM 과제가 포함됐습니다.
이후 단계에서는 컨텍스트 윈도우를 8,000에서 32,000, 최종적으로는 262,000 토큰까지 점진적으로 확장했습니다. “Thinking” 버전 모델들은 특별한 사고 과정 훈련을 받아, 복잡한 문제에서 더 나은 결과를 내기 위해 추론 단계를 명시적으로 표시할 수 있습니다.
오픈소스로 공개된 강력한 성능
9월부터 공개된 모든 Qwen3-VL 모델은 Apache 2.0 라이선스로 Hugging Face에서 가중치가 공개됐습니다. 2B부터 32B까지의 dense 변형과, 30B-A3B 및 대규모 235B-A22B 같은 mixture-of-experts 모델이 포함됩니다.
긴 영상에서 프레임을 추출하는 기능 자체는 새로운 것이 아닙니다. Google의 Gemini 1.5 Pro가 2024년 초에 이를 처리했었죠. 하지만 Qwen3-VL은 오픈 패키지로 경쟁력 있는 성능을 제공합니다. 이전 Qwen2.5-VL이 이미 연구계에서 널리 사용되고 있는 만큼, 새로운 모델은 오픈소스 개발을 더욱 촉진할 것으로 보입니다.
한계와 의미
물론 모든 영역에서 완벽한 건 아닙니다. 복잡한 MMMU-Pro 테스트에서는 69.3%를 기록해 GPT-5의 78.4%에 뒤처졌습니다. 상용 경쟁 모델들은 비디오 QA 벤치마크에서 대체로 앞서 있습니다. 데이터가 시사하는 바는 명확합니다. Qwen3-VL은 시각적 수학과 문서 분야의 전문가지만, 일반 추론 능력에서는 아직 개선의 여지가 있습니다.
그럼에도 이 모델의 등장은 중요한 의미를 갖습니다. 오픈소스 AI가 상용 모델과 경쟁할 수 있는 수준에 도달했다는 것, 그리고 긴 컨텍스트 처리라는 새로운 능력이 실용화 단계에 접어들었다는 것을 보여주니까요. 개발자와 연구자들은 이제 이 강력한 도구를 자유롭게 활용해 새로운 애플리케이션을 만들어낼 수 있습니다.
참고자료:

답글 남기기