VibeThinker-3B는 3B 파라미터의 소형 dense 언어 모델이 수학·코딩처럼 정답 검증이 가능한 추론 과제에서 어디까지 갈 수 있는지 실험한 기술 보고서다. 연구진은 Qwen2.5-Coder-3B base를 기반으로 curriculum SFT, 멀티도메인 RL, Long2Short RL, offline self-distillation, instruction RL을 단계적으로 적용했다.
핵심 주장
논문의 중심 가설은 Parametric Compression-Coverage Hypothesis다. 모든 능력이 같은 방식으로 파라미터를 요구하지 않는다는 관점이다.
| 능력 유형 | 설명 | 파라미터 요구 |
|---|---|---|
| parameter-dense capability | 수학·코딩처럼 구조화된 탐색, 제약 충족, 오류 수정이 핵심 | 작은 모델에도 압축 가능 |
| parameter-expansive capability | 광범위한 사실, 도메인 지식, 긴 꼬리 개념 recall이 핵심 | 큰 파라미터 coverage 필요 |
즉, 소형 모델이 대형 일반 모델을 대체한다는 주장이 아니라, 검증 가능한 추론은 더 작은 “추론 코어”에 강하게 압축될 수 있다는 주장이다.
학습 파이프라인
VibeThinker-3B는 VibeThinker-1.5B의 Spectrum-to-Signal post-training 패러다임을 확장한다.
- Curriculum SFT: 수학, 코드, STEM, 일반 대화, instruction following 데이터를 넓게 학습한 뒤, 긴 추론과 고난도 샘플로 2단계 미세조정
- Multi-domain RL: 수학·코드·STEM처럼 검증 가능한 영역에서 MGPO 계열 강화학습 적용
- Long2Short Math RL: 정답인 trajectory 사이에서 더 짧은 추론에 상대 보상을 주어 토큰 효율 개선
- Offline Self-Distillation: 도메인별 RL checkpoint에서 검증된 고품질 trajectory를 다시 학생 모델에 증류
- Instruct RL: 복잡한 형식·순서·개수 제약을 따르는 instruction controllability 보강
주요 성능
논문이 보고한 대표 수치는 다음과 같다.
| 벤치마크 | VibeThinker-3B |
|---|---|
| AIME25 | 91.4 |
| AIME26 | 94.3 |
| HMMT25 | 89.3 |
| BruMO25 | 93.8 |
| IMO-AnswerBench | 76.4 |
| LiveCodeBench v6 | 80.2 |
| OJBench | 38.6 |
| GPQA-Diamond | 70.2 |
| IFEval | 93.4 |
| IFBench | 74.5 |
AIME26은 claim-level test-time scaling(CLR)을 적용하면 97.1까지 올라간다고 보고한다. 최근 LeetCode contest(2026-04-25~2026-05-31)에서는 96.1% acceptance rate를 보였다고 설명한다.
CLR: claim-level test-time scaling
CLR(Claim-Level Reliability Assessment)은 전체 reasoning trace를 다시 평가하는 대신, 정답 결정에 중요한 claim 몇 개를 추출해 자체 검증한다. 각 후보 trajectory에서 decision-relevant claim을 뽑고, 모델이 그 claim을 반증하거나 검증한 뒤, 신뢰도 가중 투표로 최종 답을 고른다.
이 방식은 긴 추론 전체를 반복 검증하는 것보다 토큰 비용을 줄이면서, 중간 논리 오류가 있는 trajectory를 강하게 패널티한다는 점이 특징이다.
해석할 때 주의할 점
벤치마크 수치가 인상적이지만, 이 모델은 범용 지식 모델이라기보다 검증 가능한 수학·코딩 문제에 강한 소형 reasoning model로 보는 편이 맞다. 논문 자체도 GPQA-Diamond 같은 지식 집약 평가에서는 대형 모델과의 격차가 더 잘 드러난다고 설명한다.
또한 공개된 arXiv 보고서 기준의 실험 결과이므로, 실제 모델 가중치, 평가 코드, 데이터 오염 검증 방식이 얼마나 재현 가능한지 확인하는 단계가 중요하다.
관련 문서
- local-slm-tips-agentic-workflows — 소형 언어 모델을 에이전틱 워크플로에 활용하는 전략
- minicpm5-1b — 1B급 오픈 웨이트 언어 모델
- north-mini-code — 소형 MoE 코딩 특화 모델
- ssl-agent-skills — 스킬 표현과 평가를 다룬 연구