AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

VibeThinker-3B – 3B 파라미터로 검증 가능한 추론 한계를 탐색한 소형 모델

VibeThinker-3B는 3B 파라미터의 소형 dense 언어 모델이 수학·코딩처럼 정답 검증이 가능한 추론 과제에서 어디까지 갈 수 있는지 실험한 기술 보고서다. 연구진은 Qwen2.5-Coder-3B base를 기반으로 curriculum SFT, 멀티도메인 RL, Long2Short RL, offline self-distillation, instruction RL을 단계적으로 적용했다.

핵심 주장

논문의 중심 가설은 Parametric Compression-Coverage Hypothesis다. 모든 능력이 같은 방식으로 파라미터를 요구하지 않는다는 관점이다.

능력 유형설명파라미터 요구
parameter-dense capability수학·코딩처럼 구조화된 탐색, 제약 충족, 오류 수정이 핵심작은 모델에도 압축 가능
parameter-expansive capability광범위한 사실, 도메인 지식, 긴 꼬리 개념 recall이 핵심큰 파라미터 coverage 필요

즉, 소형 모델이 대형 일반 모델을 대체한다는 주장이 아니라, 검증 가능한 추론은 더 작은 “추론 코어”에 강하게 압축될 수 있다는 주장이다.

학습 파이프라인

VibeThinker-3B는 VibeThinker-1.5B의 Spectrum-to-Signal post-training 패러다임을 확장한다.

  1. Curriculum SFT: 수학, 코드, STEM, 일반 대화, instruction following 데이터를 넓게 학습한 뒤, 긴 추론과 고난도 샘플로 2단계 미세조정
  2. Multi-domain RL: 수학·코드·STEM처럼 검증 가능한 영역에서 MGPO 계열 강화학습 적용
  3. Long2Short Math RL: 정답인 trajectory 사이에서 더 짧은 추론에 상대 보상을 주어 토큰 효율 개선
  4. Offline Self-Distillation: 도메인별 RL checkpoint에서 검증된 고품질 trajectory를 다시 학생 모델에 증류
  5. Instruct RL: 복잡한 형식·순서·개수 제약을 따르는 instruction controllability 보강

주요 성능

논문이 보고한 대표 수치는 다음과 같다.

벤치마크VibeThinker-3B
AIME2591.4
AIME2694.3
HMMT2589.3
BruMO2593.8
IMO-AnswerBench76.4
LiveCodeBench v680.2
OJBench38.6
GPQA-Diamond70.2
IFEval93.4
IFBench74.5

AIME26은 claim-level test-time scaling(CLR)을 적용하면 97.1까지 올라간다고 보고한다. 최근 LeetCode contest(2026-04-25~2026-05-31)에서는 96.1% acceptance rate를 보였다고 설명한다.

CLR: claim-level test-time scaling

CLR(Claim-Level Reliability Assessment)은 전체 reasoning trace를 다시 평가하는 대신, 정답 결정에 중요한 claim 몇 개를 추출해 자체 검증한다. 각 후보 trajectory에서 decision-relevant claim을 뽑고, 모델이 그 claim을 반증하거나 검증한 뒤, 신뢰도 가중 투표로 최종 답을 고른다.

이 방식은 긴 추론 전체를 반복 검증하는 것보다 토큰 비용을 줄이면서, 중간 논리 오류가 있는 trajectory를 강하게 패널티한다는 점이 특징이다.

해석할 때 주의할 점

벤치마크 수치가 인상적이지만, 이 모델은 범용 지식 모델이라기보다 검증 가능한 수학·코딩 문제에 강한 소형 reasoning model로 보는 편이 맞다. 논문 자체도 GPQA-Diamond 같은 지식 집약 평가에서는 대형 모델과의 격차가 더 잘 드러난다고 설명한다.

또한 공개된 arXiv 보고서 기준의 실험 결과이므로, 실제 모델 가중치, 평가 코드, 데이터 오염 검증 방식이 얼마나 재현 가능한지 확인하는 단계가 중요하다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)