VibeThinker-3B – 3B 파라미터로 검증 가능한 추론 한계를 탐색한 소형 모델

핵심 주장
학습 파이프라인
주요 성능
CLR: claim-level test-time scaling
해석할 때 주의할 점
관련 문서
참고 자료

VibeThinker-3B는 3B 파라미터의 소형 dense 언어 모델이 수학·코딩처럼 정답 검증이 가능한 추론 과제에서 어디까지 갈 수 있는지 실험한 기술 보고서다. 연구진은 Qwen2.5-Coder-3B base를 기반으로 curriculum SFT, 멀티도메인 RL, Long2Short RL, offline self-distillation, instruction RL을 단계적으로 적용했다.

핵심 주장

논문의 중심 가설은 Parametric Compression-Coverage Hypothesis다. 모든 능력이 같은 방식으로 파라미터를 요구하지 않는다는 관점이다.

능력 유형	설명	파라미터 요구
parameter-dense capability	수학·코딩처럼 구조화된 탐색, 제약 충족, 오류 수정이 핵심	작은 모델에도 압축 가능
parameter-expansive capability	광범위한 사실, 도메인 지식, 긴 꼬리 개념 recall이 핵심	큰 파라미터 coverage 필요

즉, 소형 모델이 대형 일반 모델을 대체한다는 주장이 아니라, 검증 가능한 추론은 더 작은 “추론 코어”에 강하게 압축될 수 있다는 주장이다.

학습 파이프라인

VibeThinker-3B는 VibeThinker-1.5B의 Spectrum-to-Signal post-training 패러다임을 확장한다.

Curriculum SFT: 수학, 코드, STEM, 일반 대화, instruction following 데이터를 넓게 학습한 뒤, 긴 추론과 고난도 샘플로 2단계 미세조정
Multi-domain RL: 수학·코드·STEM처럼 검증 가능한 영역에서 MGPO 계열 강화학습 적용
Long2Short Math RL: 정답인 trajectory 사이에서 더 짧은 추론에 상대 보상을 주어 토큰 효율 개선
Offline Self-Distillation: 도메인별 RL checkpoint에서 검증된 고품질 trajectory를 다시 학생 모델에 증류
Instruct RL: 복잡한 형식·순서·개수 제약을 따르는 instruction controllability 보강

주요 성능

논문이 보고한 대표 수치는 다음과 같다.

벤치마크	VibeThinker-3B
AIME25	91.4
AIME26	94.3
HMMT25	89.3
BruMO25	93.8
IMO-AnswerBench	76.4
LiveCodeBench v6	80.2
OJBench	38.6
GPQA-Diamond	70.2
IFEval	93.4
IFBench	74.5

AIME26은 claim-level test-time scaling(CLR)을 적용하면 97.1까지 올라간다고 보고한다. 최근 LeetCode contest(2026-04-25~2026-05-31)에서는 96.1% acceptance rate를 보였다고 설명한다.

CLR: claim-level test-time scaling

CLR(Claim-Level Reliability Assessment)은 전체 reasoning trace를 다시 평가하는 대신, 정답 결정에 중요한 claim 몇 개를 추출해 자체 검증한다. 각 후보 trajectory에서 decision-relevant claim을 뽑고, 모델이 그 claim을 반증하거나 검증한 뒤, 신뢰도 가중 투표로 최종 답을 고른다.

이 방식은 긴 추론 전체를 반복 검증하는 것보다 토큰 비용을 줄이면서, 중간 논리 오류가 있는 trajectory를 강하게 패널티한다는 점이 특징이다.

해석할 때 주의할 점

벤치마크 수치가 인상적이지만, 이 모델은 범용 지식 모델이라기보다 검증 가능한 수학·코딩 문제에 강한 소형 reasoning model로 보는 편이 맞다. 논문 자체도 GPQA-Diamond 같은 지식 집약 평가에서는 대형 모델과의 격차가 더 잘 드러난다고 설명한다.

또한 공개된 arXiv 보고서 기준의 실험 결과이므로, 실제 모델 가중치, 평가 코드, 데이터 오염 검증 방식이 얼마나 재현 가능한지 확인하는 단계가 중요하다.

참고 자료

VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models — arXiv (2026-06-15)

Like?

AI Sparkup