알리바바의 Qwen3: ‘생각하는’ AI의 새로운 시대를 열다

최근 중국 테크 거인 알리바바가 자사의 최신 AI 모델 시리즈인 Qwen3(첸3)를 공개했습니다. 이는 단순한 모델 업그레이드를 넘어서, AI가 인간처럼 ‘생각’하는 방식에 근본적인 변화를 가져올 혁신적인 접근법을 담고 있습니다. 특히 주목할 점은 ‘생각하기(Thinking)’ 모드와 ‘생각하지 않기(Non-thinking)’ 모드를 결합한 최초의 하이브리드 추론 모델이라는 점입니다. 이번 글에서는 Qwen3가 가져올 AI 기술의 새로운 패러다임과 다양한 특징들에 대해 알아보겠습니다.

Qwen3 모델 시리즈 소개

알리바바는 이번에 다양한 크기와 능력을 갖춘 Qwen3 모델 라인업을 공개했습니다. 크게 MoE(Mixture of Experts) 모델과 밀집(Dense) 모델로 나뉘며, 매개변수 수는 0.6B부터 235B까지 다양합니다.

MoE 모델

Qwen3-235B-A22B: 총 235B 매개변수 중 22B만 활성화하는 대규모 모델
Qwen3-30B-A3B: 총 30B 매개변수 중 3B만 활성화하는 소형 MoE 모델

밀집 모델

Qwen3-32B: 32B 매개변수를 가진 대형 밀집 모델
Qwen3-14B: 14B 매개변수 모델
Qwen3-8B: 8B 매개변수 모델
Qwen3-4B: 4B 매개변수 모델
Qwen3-1.7B: 1.7B 매개변수 모델
Qwen3-0.6B: 0.6B 매개변수의 초소형 모델

Qwen3 시리즈는 대부분 Apache 2.0 라이선스 하에 공개되어 연구자, 개발자, 기업들이 자유롭게 사용할 수 있습니다. 이는 오픈소스 AI 모델 생태계를 한층 풍부하게 만들어줄 것으로 기대됩니다.

하이브리드 사고 모드: AI의 새로운 접근법

Qwen3의 가장 혁신적인 특징 중 하나는 하이브리드 사고 모드입니다. 이 모델은 복잡성에 따라 두 가지 방식으로 문제를 해결합니다.

생각하기(Thinking) 모드: 복잡한 문제에 대해 단계별로 추론하고 자체 검증 과정을 거친 후 최종 답변을 제공합니다. 이는 정확도와 신뢰성을 높이지만 응답 시간이 상대적으로 깁니다.
생각하지 않기(Non-thinking) 모드: 간단한 질문에 대해서는 거의 즉각적인 응답을 제공합니다. 빠른 응답이 중요한 상황에 적합합니다.

이 두 모드를 유연하게 전환할 수 있다는 점이 Qwen3의 가장 큰 장점입니다. 사용자는 /think와 /no_think 태그를 사용해 모델의 사고 모드를 대화 중에도 전환할 수 있습니다. 이러한 하이브리드 접근법은 AI 시스템에서 정확성과 속도 사이의 균형을 맞추는 새로운 방식을 제시합니다.

또한 Qwen3는 ‘사고 예산(Thinking Budget)’을 조절할 수 있는 기능을 통해 사용자가 작업별로 최적의 추론 깊이를 설정할 수 있도록 지원합니다. 이러한 유연성은 비용 효율성과 추론 품질 사이의 균형을 맞추는 데 큰 도움이 됩니다.

Qwen3의 기술적 특징

대규모 사전 훈련 데이터셋

Qwen3는 이전 버전인 Qwen2.5보다 훨씬 더 방대한 데이터셋으로 훈련되었습니다. Qwen2.5가 18조 토큰으로 훈련된 데 비해, Qwen3는 약 36조 토큰으로 훈련되었습니다. 이 데이터셋은 웹 콘텐츠뿐만 아니라 PDF 형식의 문서, 교과서, 질의응답 쌍, 코드 스니펫 등 다양한 소스에서 수집되었습니다.

특히 주목할 점은 Qwen2.5-VL(Vision Language)을 사용해 문서에서 텍스트를 추출하고, Qwen2.5를 활용해 추출된 콘텐츠의 품질을 개선했다는 점입니다. 또한 Qwen2.5-Math와 Qwen2.5-Coder를 사용하여 수학 및 코드 관련 합성 데이터를 생성했습니다. 이러한 자기 증강(self-boosting) 방식은 데이터의 다양성과 품질을 높이는 효과적인 접근법입니다.

다국어 지원

Qwen3는 119개의 언어와 방언을 지원합니다. 이는 국제적인 사용자들에게 접근성을 높이고, 다양한 언어 환경에서의 활용 가능성을 열어줍니다.

지원하는 언어는 인도-유럽어족(영어, 프랑스어, 독일어, 러시아어 등), 중국-티베트어족(중국어, 버마어), 아프로-아시아어족(아랍어, 히브리어), 오스트로네시아어족(인도네시아어, 말레이어), 드라비다어족(타밀어, 텔루구어), 투르크어족(터키어, 우즈베크어) 등 다양한 언어 계열을 포함합니다.

MoE(Mixture of Experts) 아키텍처

대규모 Qwen3 모델은 MoE(Mixture of Experts) 아키텍처를 채택했습니다. 이 접근법은 하나의 거대한 모델 대신, 작고 전문화된 ‘전문가’ 서브네트워크들을 활용합니다.

작업이나 쿼리가 들어오면, MoE 모델 내의 게이팅 네트워크가 어떤 전문가가 해당 작업에 가장 적합한지 결정합니다. 선택된 전문가들은 자신의 특정 파트를 처리하고, 이를 통해 전체 매개변수의 일부만 활성화하면서도 효과적인 추론을 가능하게 합니다.

예를 들어, Qwen3-235B-A22B는 총 235B 매개변수 중 단 22B(약 9.4%)만 활성화하여 사용합니다. 이는 비슷한 성능의 밀집 모델에 비해 계산 비용과 배포 비용을 크게 줄일 수 있습니다. 이러한 접근법은 마치 한 사람이 모든 업무를 처리하기보다 각 분야의 전문가들로 구성된 팀이 효율적으로 협업하는 것과 유사합니다.

성능 비교 및 벤치마크

알리바바에 따르면, Qwen3 모델은 코딩, 수학, 일반적인 능력 등의 벤치마크 평가에서 다른 최상위 모델들과 비교했을 때 경쟁력 있는 결과를 보여줍니다.

특히 플래그십 모델인 Qwen3-235B-A22B는 Codeforces(프로그래밍 경연 플랫폼)에서 OpenAI의 o3-mini와 Google의 Gemini 2.5 Pro를 약간 앞서는 성능을 보여주었습니다. 또한 AIME(미국 수학경시대회) 벤치마크와 복잡한 추론 작업을 테스트하는 BFCL 벤치마크에서도 o3-mini보다 우수한 성능을 보였습니다.

작은 MoE 모델인 Qwen3-30B-A3B도 주목할 만한 성능을 보여주었는데, 활성화되는 매개변수 수가 QwQ-32B의 10분의 1에 불과함에도 불구하고 더 나은 성능을 기록했습니다. 심지어 소형 모델인 Qwen3-4B도 Qwen2.5-72B-Instruct와 비슷한 성능을 보여주었습니다.

이러한 벤치마크 결과는 Qwen3 모델이 단순히 매개변수 수를 늘리는 것이 아니라, 모델 아키텍처와 훈련 방법론의 개선을 통해 효율성과 성능을 모두 향상시켰음을 보여줍니다.

실제 활용 방법

Qwen3는 연구, 개발, 생산 환경 등 다양한 상황에서 쉽게 활용할 수 있도록 여러 배포 옵션을 제공합니다.

기본 사용법

Hugging Face transformers를 사용한 기본 예제 코드는 다음과 같습니다:

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"

# 토크나이저와 모델 로드
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 모델 입력 준비
prompt = "대규모 언어 모델에 대한 간단한 소개를 해주세요."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # 생각하기 모드와 생각하지 않기 모드 전환. 기본값은 True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 텍스트 생성
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 생각하기 콘텐츠 파싱
try:
    # '</think>' 토큰 찾기
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

배포 옵션

Qwen3는 sglang>=0.4.6.post1 또는 vllm>=0.8.4를 사용하여 OpenAI 호환 API 엔드포인트를 만들 수 있습니다:

SGLang:python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3
vLLM:vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepseek_r1

로컬 개발의 경우 ollama run qwen3:30b-a3b 명령으로 간단히 모델을 실행하거나, LMStudio, llama.cpp, ktransformers 등을 사용하여 로컬에서 구축할 수 있습니다.

에이전트 활용

Qwen3는 도구 호출 기능이 뛰어납니다. Qwen-Agent를 사용하면 Qwen3의 에이전트 기능을 최대한 활용할 수 있습니다. 다음은 간단한 예제 코드입니다:

from qwen_agent.agents import Assistant

# LLM 정의
llm_cfg = {
    'model': 'Qwen3-30B-A3B',
    'model_server': 'http://localhost:8000/v1',
    'api_key': 'EMPTY',
}

# 도구 정의
tools = [
    {'mcpServers': {
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
    'code_interpreter',  # 내장 도구
]

# 에이전트 정의
bot = Assistant(llm=llm_cfg, function_list=tools)

# 스트리밍 생성
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

Qwen3가 AI 생태계에 미치는 영향

Qwen3의 등장은 AI 기술의 발전 방향을 보여주는 중요한 이정표입니다. 특히 주목할 만한 몇 가지 영향은 다음과 같습니다:

오픈소스와 클로즈드 모델 간의 경쟁 심화

Qwen3와 같은 고성능 오픈소스 AI 모델의 등장은 OpenAI, Anthropic과 같은 기업이 제공하는 클로즈드 소스 시스템의 지배력에 직접적인 도전이 됩니다. 이러한 오픈 모델은 기업, 연구자, 개발자들이 거대 기업에 전적으로 의존하지 않고도 AI 도구를 구축할 수 있게 해줍니다.

AI 클라우드 호스팅 제공업체인 Baseten의 CEO 투힌 스리바스타바는 TechCrunch와의 인터뷰에서 기업들이 점점 더 하이브리드 전략을 채택하고 있다고 언급했습니다. 즉, Qwen3와 같은 오픈 모델을 활용하여 특정 요구에 맞춘 AI 솔루션을 구축하는 동시에, 다른 작업에는 클로즈드 모델 제공업체의 서비스를 함께 활용하고 있다는 것입니다.

글로벌 AI 기술 경쟁 구도 변화

Qwen3와 같은 중국 기업의 고성능 대규모 언어 모델 출시는 글로벌 AI 기술 경쟁 구도에 새로운 변화를 가져옵니다. 이는 Google, OpenAI와 같은 주요 기업들이 더 뛰어난 AI 기술을 개발하도록 압박을 가중시키고, 결과적으로 혁신 속도를 높이고 비용을 낮추는 데 기여할 수 있습니다.

또한 AI 기술 개발을 둘러싼 지정학적 맥락도 복잡해지고 있습니다. 미국은 최근 중국 기업들이 대규모 모델 훈련에 필요한 고급 반도체 칩(Nvidia, AMD 등)에 대한 접근을 제한하는 수출 통제를 시행했습니다. 이러한 제약에도 불구하고, 알리바바와 같은 기업들은 지속적인 발전을 보여주고 있습니다.

AI의 발전 방향성

Qwen3의 개발팀은 이 모델이 인공 일반 지능(AGI)과 인공 초지능(ASI)을 향한 여정에서 중요한 이정표라고 언급했습니다. 사전 훈련과 강화 학습을 모두 확장함으로써 더 높은 수준의 지능을 달성했으며, 생각하기와 생각하지 않기 모드를 원활하게 통합하여 사용자에게 사고 예산을 제어할 수 있는 유연성을 제공했습니다.

앞으로 Qwen 개발팀은 모델 아키텍처와 훈련 방법론을 개선하여 데이터 규모 확장, 모델 크기 증가, 맥락 길이 확장, 다양한 모달리티 확장, 장기적 추론을 위한 환경적 피드백을 통한 강화 학습 등 여러 목표를 달성하고자 합니다. 그들은 모델 훈련에 초점을 맞춘 시대에서 에이전트 훈련에 중점을 둔 시대로 전환하고 있다고 믿습니다.

결론

알리바바의 Qwen3는 단순한 모델 업그레이드가 아닌, AI가 문제를 해결하는 방식에 근본적인 변화를 가져오는 혁신입니다. 하이브리드 사고 모드, MoE 아키텍처, 다국어 지원, 강화된 에이전트 기능 등의 특징은 AI의 다음 단계가 어떤 모습일지 보여주는 중요한 지표입니다.

특히 오픈소스로 제공되는 Qwen3의 접근 방식은 AI 기술의 민주화를 가속화하고, 더 많은 개발자와 기업이 첨단 AI 기능을 활용할 수 있게 해줍니다. 이는 궁극적으로 AI 생태계의 다양성과 혁신을 촉진하는 데 기여할 것입니다.

앞으로 Qwen3가 실제 응용 프로그램과 서비스에 어떻게 통합되고, 오픈소스와 클로즈드 소스 모델 간의 경쟁이 어떻게 진화할지 지켜보는 것은 AI 기술의 미래를 이해하는 데 중요한 관전 포인트가 될 것입니다.

AI Sparkup

알리바바의 Qwen3: ‘생각하는’ AI의 새로운 시대를 열다

Qwen3 모델 시리즈 소개

MoE 모델

밀집 모델

하이브리드 사고 모드: AI의 새로운 접근법

Qwen3의 기술적 특징

대규모 사전 훈련 데이터셋

다국어 지원

MoE(Mixture of Experts) 아키텍처

성능 비교 및 벤치마크

실제 활용 방법

기본 사용법

배포 옵션

에이전트 활용

Qwen3가 AI 생태계에 미치는 영향

오픈소스와 클로즈드 모델 간의 경쟁 심화

글로벌 AI 기술 경쟁 구도 변화

AI의 발전 방향성

결론

참고자료:

이것이 좋아요:

Comments

응답 취소

More posts

멀티 에이전트 AI 시스템 구축 가이드: 아키텍처 선택부터 성능 최적화까지

국가기밀도 다루는 AI의 등장: Anthropic의 ‘Claude Gov’가 보여주는 AI 산업의 새로운 전환점

AI는 정말 생각할 수 있을까? Apple 연구가 밝힌 충격적 진실과 그 논쟁

AI 기억의 새로운 패러다임: Supermemory MCP로 모든 AI가 하나의 기억을 공유한다