로봇 AI 연구는 오랫동안 조작(manipulation), 항법(navigation), 궤적 예측(trajectory prediction) 등 각 과제마다 별도 모델을 훈련해왔다. Qwen-VLA는 이 분절된 접근을 통합하려는 시도다. Alibaba의 Qwen 팀이 2026년 5월 발표한 이 모델은 Qwen의 비전-언어 스택(지각·이해·추론)을 연속 행동 및 궤적 생성으로 확장하며, 다양한 로봇 기체(embodiment)와 환경·과제에서 일관된 멀티태스크 성능을 달성했다.
핵심 구조
DiT 기반 액션 디코더
비전-언어 모델(VLM)만으로는 로봇의 연속적인 관절 제어 신호를 생성하기 어렵다. Qwen-VLA는 DiT(Diffusion Transformer) 기반 액션 디코더를 붙여 이 문제를 해결했다. VLM이 시각·언어 이해를 담당하고, DiT 디코더가 연속 행동 및 궤적을 생성하는 역할을 맡는다.
기체 인식 프롬프트 조건화
로봇마다 자유도(DoF)·제어 규약·센서 구성이 다르다. Qwen-VLA는 기체 인식 프롬프트 조건화(embodiment-aware prompt conditioning)를 도입해, 로봇별 텍스트 설명이 현재 기체와 제어 방식을 지정하도록 설계했다. 동일 모델로 여러 로봇 플랫폼을 지원할 수 있는 이유다.
통합 행동-궤적 예측 프레임워크
조작·항법·궤적 예측을 별도 헤드 대신 단일 행동-궤적 예측 프레임워크로 통합했다. 이를 통해 시각 기반 공간 추론과 연속 행동 생성 능력이 로봇 형태, 과제 유형, 환경에 걸쳐 전이된다.
훈련 데이터
다양한 데이터 소스를 결합한 대규모 공동 사전 훈련(joint pretraining)을 수행했다.
| 데이터 유형 | 설명 |
|---|---|
| 로봇 조작 궤적 | 실제 로봇 데모 데이터 |
| 인간 1인칭 시점 데모 | 에고센트릭 영상·행동 쌍 |
| 합성 시뮬레이션 데이터 | 시뮬레이터 생성 다양성 확보 |
| 비전-언어 항법 데이터 | VLN 데이터셋 |
| 궤적 중심 감독 | 경로·동작 예측 라벨 |
| 보조 비전-언어 데이터 | 일반 VQA·이해 데이터 |
누가 주목해야 하는가
| 대상 | 시사점 |
|---|---|
| 로보틱스 연구자 | 단일 VLA 모델로 다양한 로봇 과제를 다루려는 연구의 참조점 |
| 로봇 앱 개발자 | Qwen 기반 비전-언어 이해를 로봇 제어로 연결하는 실용적 출발점 |
| AI 기반 모델 연구자 | 이종 기체 간 전이 학습의 최신 접근법 연구 |
관련 문서
- minwm — 비디오 기반 월드 모델 개발을 위한 풀스택 오픈소스 프레임워크