AI가 사진 한 장을 보고 여러 단계를 추론하다 초반에 한 번 틀리면, 이후 논리 전체가 무너집니다. 알리바바 Qwen팀은 이 문제를 훈련 데이터에서 찾아냈고, 새로운 방식으로 해결했습니다.

알리바바 Qwen팀과 칭화대 연구진이 비전-언어 모델(VLM)의 다단계 추론 오류 문제를 분석하고, 이를 해결하기 위한 HopChain 프레임워크를 담은 논문을 공개했습니다. 이미지 기반 추론 훈련 데이터의 구조적 결함을 찾아낸 뒤, 연쇄 질문 방식으로 모델이 이미지를 더 꼼꼼히 살피도록 강제하는 방식입니다. 24개 벤치마크 중 20개에서 성능이 향상됐습니다.
출처: HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning – arxiv (Qwen Team, Alibaba / 칭화대)
실수 하나가 전체 논리를 무너뜨린다
비전-언어 모델은 이미지와 텍스트를 함께 처리하는 데 점점 능숙해지고 있지만, 이미지를 보며 여러 단계를 거쳐 추론해야 하는 상황에서는 여전히 자주 무너집니다.
연구팀이 확인한 오류 패턴은 구체적입니다. 모델에게 여러 마리의 무당벌레 사진을 보여주고 점의 총 개수를 세게 하면, 5마리 중 3마리를 한 점씩 잘못 셉니다. 차량이 주차 공간으로 들어가는 장면을 보여주면 빠져나가는 것으로 반대로 읽습니다. 천문도에서 특정 호(arc)를 가리켜야 할 때 엉뚱한 계절을 짚습니다.
이런 실수들이 치명적인 이유는, 틀린 중간 단계가 다음 추론의 전제가 되기 때문입니다. 초반의 작은 인식 오류 하나가 이후 전체 논리 체계를 오염시키는 구조입니다.
훈련 데이터에 문제가 있었다
연구팀은 이 문제의 근원을 훈련 데이터에서 찾았습니다. 강화학습(RLVR) 방식으로 모델을 훈련할 때 사용하는 기존 시각 데이터 대부분이, 이미지를 여러 단계에 걸쳐 반복적으로 참조해야 하는 복잡한 추론 사례를 거의 포함하지 않았습니다. 모델이 그런 상황에서 실수하는 경험 자체를 충분히 쌓지 못한 셈입니다.
HopChain은 이 공백을 채우기 위한 데이터 합성 프레임워크입니다. 핵심 아이디어는 단순합니다. 각 질문이 앞 단계의 결과에 의존하도록 연쇄 구조로 설계해서, 모델이 이미지를 반복적으로 살피지 않으면 풀 수 없게 만드는 것입니다.
데이터 생성 파이프라인은 네 단계로 작동합니다.
- Qwen3-VL이 이미지 속 객체 카테고리를 식별합니다.
- Meta의 분할 모델 SAM3가 객체별 위치를 특정합니다.
- 언어 모델이 3~6개 객체를 연결하는 다단계 질문 사슬을 생성합니다.
- 인간 주석자 4명이 독립적으로 풀어, 전원 일치한 문제만 최종 데이터로 채택합니다.
이렇게 생성된 훈련 데이터는 모델당 6만~8만 개 수준입니다.
연쇄 질문이 어떻게 구성되는지 논문의 예시를 보면 직관적입니다. 모델은 장난감 양의 눈 개수를 세고 → 배경 종이에 텍스트가 있는지 확인하고 → 인접한 인형의 눈 개수를 세고 → 특정 종이에 적힌 단어를 읽고 → 글자 수를 세고 → 산술 연산을 거쳐 → 장면 속 장난감 총 개수를 곱해 최종 답을 냅니다. 정답은 72입니다.
24개 중 20개 벤치마크 향상, 영상도 개선
연구팀은 두 가지 모델 크기(Qwen3.5-35B-A3B, Qwen3.5-397B-A17B)를 HopChain 데이터 유무에 따라 비교했습니다. 결과는 두 모델 모두 24개 벤치마크 중 20개에서 성능이 올랐습니다.
영상 벤치마크에서도 6개 중 5개가 개선됐습니다. 훈련 데이터는 전부 정지 이미지였는데도 영상 추론 능력까지 향상됐고, 연구팀은 이를 이미지 추론 과정에서 습득한 능력이 영상으로 전이된 증거로 해석합니다.
연쇄 구조의 중요성도 수치로 확인됩니다. 5개 대표 벤치마크 평균 점수는 완전한 다단계 질문을 사용했을 때 70.4점이었지만, 절반 체인으로 줄이면 66.7점, 단일 단계 질문으로 대체하면 64.3점으로 떨어집니다.
이미지 인식이 AI 추론의 진짜 병목
HopChain이 흥미로운 이유는 단순히 성능이 올랐다는 사실이 아닙니다. 문제의 핵심이 ‘알고리즘’이 아니라 ‘훈련 데이터의 구조’에 있다는 점을 보여줬다는 데 있습니다. 모델이 논리적으로 추론하는 능력 자체보다, 이미지를 정확히 인식하는 초기 단계의 오류가 전체 성능을 제한하고 있다는 진단입니다.
비전-언어 모델의 시각 인식 한계는 최근 다른 연구에서도 반복적으로 확인되고 있습니다. Moonshot AI의 WorldVQA 벤치마크에서는 최상위 모델조차 객체 인식률이 50%를 밑돌았고, 스탠퍼드 분석에서는 프론티어 모델이 이미지를 보지 않고도 벤치마크 점수의 70~80%를 달성하는 현상이 발견되기도 했습니다.
논문은 이외에도 오류 유형별 분포 분석, 추론 체인 길이와 정확도의 상관관계, SAM3 기반 분할이 어려운 이미지에서 발생하는 파이프라인 한계를 함께 다룹니다.
참고자료: Alibaba’s Qwen team built HopChain to fix how AI vision models fall apart during multi-step reasoning – The Decoder

답글 남기기