AI 에이전트 경쟁이 본격화하는 시점에, Alibaba가 조용히 판을 바꾸는 모델을 내놨습니다. 397B 파라미터를 품었지만 실제 추론 시 17B만 켜지는 구조, 텍스트·이미지·영상을 하나의 시스템에서 함께 처리하는 설계. 단순한 성능 경쟁이 아니라 AI 에이전트 시대를 위한 아키텍처 설계 경쟁이 시작됐습니다.

출처: Qwen3.5: Towards Native Multimodal Agents – Alibaba Qwen 팀
17B만 켜지는 397B 모델
Qwen3.5의 오픈웨이트 모델(Qwen3.5-397B-A17B)은 총 397B 파라미터를 갖추고 있지만, 하나의 추론 과정(forward pass)에서 실제로 활성화되는 파라미터는 17B에 불과합니다. 이것이 MoE(Mixture of Experts) 아키텍처의 핵심입니다. 512개의 전문가 중 매 토큰마다 10개만 선택적으로 활성화하고, 여기에 항상 켜져 있는 공유 전문가 1개를 더하는 방식입니다.
더 주목할 부분은 어텐션 메커니즘입니다. Qwen3.5는 Gated Delta Networks(선형 어텐션)와 기존 Gated Attention을 혼합한 하이브리드 구조를 채택했습니다. 60개 레이어를 기준으로 3개의 선형 어텐션 레이어마다 1개의 일반 어텐션 레이어가 배치되는 구조인데, 선형 어텐션은 시퀀스 길이에 비례한 연산 비용이 들지 않아 긴 컨텍스트 처리에 유리합니다. 네이티브로 256K 토큰을 지원하고, 호스팅 버전(Qwen3.5-Plus)에서는 최대 100만 토큰 컨텍스트까지 늘어납니다.

멀티모달을 ‘나중에 붙인 기능’이 아닌 기본으로
이전 세대 멀티모달 모델들은 언어 모델에 비전 인코더를 별도로 연결하는 방식이 일반적이었습니다. Qwen3.5는 다릅니다. 텍스트와 이미지 토큰을 처음부터 함께 학습하는 Early Fusion 방식을 채택해, 시각 정보와 언어 정보가 처음부터 같은 공간에서 상호작용합니다. Alibaba는 이 방식으로 순수 언어 모델인 Qwen3와 동등한 텍스트 성능을 유지하면서 비전-언어 모델인 Qwen3-VL 계열보다 멀티모달 벤치마크에서 더 높은 성능을 달성했다고 밝혔습니다.
에이전트를 위해 설계된 훈련 방식
Qwen3.5는 단순한 추론 모델이 아니라 에이전트 환경에서의 실제 작동을 염두에 둔 훈련 방식을 도입했습니다. 수백만 개의 에이전트 환경에서 강화학습을 진행했고, 복잡도가 점진적으로 높아지는 태스크 분포를 활용해 실세계 적응력을 키웠습니다. 또한 비동기 RL 프레임워크를 통해 대규모 에이전트 스캐폴드와 환경 오케스트레이션을 지원합니다. OpenClaw 같은 오픈소스 에이전트 프레임워크와의 호환성도 공식적으로 명시했습니다.
지원 언어도 이전 세대의 82개에서 201개로 확장됐습니다. 글로벌 에이전트 배포를 겨냥한 포지셔닝입니다.
중국 AI 경쟁의 새 국면
이번 발표는 Alibaba가 중국 설날 전날인 2026년 2월 16일에 공개했습니다. 같은 시기 ByteDance, Zhipu AI 등 중국 AI 기업들도 에이전트 특화 모델을 잇달아 내놓으며 경쟁이 가열됐습니다. 에이전트 AI가 SaaS 비즈니스 모델 자체를 위협할 수 있다는 인식이 업계 전반에 퍼지면서, 누가 더 효율적인 에이전트 기반 모델을 먼저 확보하느냐가 핵심 경쟁 축이 됐습니다.
Qwen3.5-397B-A17B는 현재 Hugging Face에서 오픈웨이트로 내려받을 수 있습니다. 벤치마크 전체 결과와 아키텍처 세부 사항은 공식 블로그에서 확인할 수 있습니다.
참고자료:
- Alibaba unveils Qwen3.5 as China’s chatbot race shifts to AI agents – CNBC
- Qwen3.5: Towards Native Multimodal Agents – Simon Willison
- Qwen3.5-397B-A17B Model Card – Hugging Face

답글 남기기