AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Qwen3-Max-Thinking, GPT-5.2급 추론 능력 갖춘 새 모델 공개

Alibaba의 Qwen 팀이 최신 추론 모델 Qwen3-Max-Thinking을 발표했습니다. GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro와 비교 가능한 성능을 보이며, 필요에 따라 도구를 자율적으로 선택해 사용하는 적응형 기능이 특징입니다.

사진 출처: Qwen Blog

Qwen 팀이 공식 블로그를 통해 Qwen3-Max-Thinking을 공개했습니다. 모델 파라미터를 확장하고 강화학습에 상당한 컴퓨팅 자원을 투입한 결과, 사실적 지식, 복잡한 추론, 명령 수행, 인간 선호도 정렬, 에이전트 기능 등 여러 영역에서 성능이 크게 향상되었습니다. 19개 벤치마크에서 GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro와 어깨를 나란히 하는 성과를 기록했습니다.

출처: Pushing Qwen3-Max-Thinking Beyond its Limits – Qwen Blog

스스로 도구를 선택하는 적응형 시스템

Qwen3-Max-Thinking의 가장 큰 특징은 적응형 도구 사용 능력입니다. 기존 모델들은 사용자가 작업을 시작하기 전에 미리 도구를 지정해야 했지만, 이 모델은 대화 중에 필요한 도구를 스스로 판단해 사용합니다.

현재 제공되는 도구는 Search(검색), Memory(기억), Code Interpreter(코드 실행) 세 가지입니다. Search와 Memory 도구는 환각을 줄이고 실시간 정보를 제공하며 개인화된 응답을 가능하게 합니다. Code Interpreter를 통해서는 코드를 직접 실행하고 계산 추론을 적용해 복잡한 문제를 해결할 수 있습니다.

이러한 기능은 도구 사용에 대한 초기 파인튜닝 후, 규칙 기반 및 모델 기반 피드백을 활용한 추가 학습을 통해 구현되었습니다.

테스트 타임 스케일링으로 추론 품질 향상

Qwen 팀은 추론 성능을 높이기 위해 새로운 테스트 타임 스케일링 전략을 제안했습니다. 테스트 타임 스케일링은 추론 시점에 추가 컴퓨팅을 할당해 모델 성능을 개선하는 기법입니다.

기존 방식은 단순히 병렬 추론 경로를 늘렸지만, 이는 중복된 추론을 양산할 수 있습니다. Qwen3-Max-Thinking은 병렬 경로 수를 제한하는 대신, 절약된 컴퓨팅 자원을 “경험 축적” 메커니즘 기반의 반복적 자기 성찰에 투입합니다. 이 메커니즘은 이전 라운드의 핵심 인사이트를 추출해, 모델이 이미 도출한 결론을 재계산하지 않고 미해결 불확실성에 집중하도록 만듭니다.

이 접근법은 거의 동일한 토큰 소비량으로 표준 병렬 샘플링보다 일관되게 우수한 성능을 냅니다. GPQA는 90.3에서 92.8로, HLE는 34.1에서 36.5로, LiveCodeBench v6는 88.0에서 91.4로, IMO-AnswerBench는 89.5에서 91.5로, HLE(도구 사용)는 55.8에서 58.3으로 향상되었습니다.

주요 벤치마크 성능

19개 벤치마크에서 Qwen3-Max-Thinking은 경쟁 모델들과 비교 가능하거나 일부 영역에서 앞서는 성능을 보였습니다.

사진 출처: Qwen Blog

지식 분야에서는 MMLU-Pro에서 85.7점, C-Eval에서 93.7점을 기록했습니다. 추론 분야에서는 LiveCodeBench v6에서 85.9점, HMMT Feb 25에서 98.0점을 달성했습니다. 특히 명령 수행 및 정렬 분야의 Arena-Hard v2에서는 90.2점으로 GPT-5.2-Thinking(80.6점)과 Gemini 3 Pro(81.7점)를 앞질렀습니다.

에이전트 검색 분야의 HLE(도구 사용)에서는 49.8점으로 네 모델 중 가장 높은 점수를 기록했습니다. 다만 도구 사용 벤치마크인 Vita Bench에서는 40.9점으로 Claude-Opus-4.5(56.3점)에 비해 낮은 성능을 보였습니다.

개발자를 위한 API 제공

Qwen3-Max-Thinking은 현재 Qwen Chat에서 사용할 수 있으며, API도 제공됩니다. API는 OpenAI API와 호환되어 기존 OpenAI API를 사용하던 개발자들이 쉽게 전환할 수 있습니다.

모델명은 qwen3-max-2026-01-23이며, Alibaba Cloud Model Studio에서 API 키를 생성한 후 사용할 수 있습니다. API 요청 시 enable_thinking 파라미터를 true로 설정하면 추론 과정을 활성화할 수 있습니다.

또한 Anthropic API 프로토콜과도 호환되어 Claude Code와 함께 사용할 수 있습니다. Alibaba Cloud에서 생성한 API 키를 환경 변수로 설정하고 Claude Code를 설치하면 코딩 작업에 Qwen3-Max-Thinking을 활용할 수 있습니다.

참고자료:

Fediverse reactions

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다