Mellum2는 JetBrains가 개발해 HuggingFace에 공개한 코딩 및 텍스트 특화 AI 모델이다. Mixture-of-Experts(MoE) 아키텍처로 총 12B 파라미터 중 토큰당 2.5B만 활성화해, 유사 규모 오픈 모델 대비 2배 이상 빠른 추론 속도를 실현했다.
모델 사양
| 항목 | 내용 |
|---|---|
| 총 파라미터 | 12B |
| 토큰당 활성 파라미터 | 2.5B |
| 아키텍처 | Mixture-of-Experts (MoE) |
| 모달리티 | 텍스트 및 코드 |
| 라이선스 | Apache 2.0 |
왜 MoE인가
MoE 아키텍처는 전체 모델 용량을 높게 유지하면서도 각 토큰 처리 시 파라미터의 일부만 활성화한다. 그 결과 추론이 효율적이고 실시간 워크로드의 서빙 비용을 줄일 수 있다. Mellum2는 멀티모달 태스크를 의도적으로 제외하고 소프트웨어 엔지니어링 워크로드에 집중해 모델을 콤팩트하게 유지했다.
벤치마크
코드 생성, 추론, 과학, 수학 벤치마크에서 유사 규모 오픈 모델과 경쟁하면서 2배 이상 빠른 추론 속도를 달성한다. 높은 처리량(high-throughput) 프로덕션 워크로드에 적합하다.
주요 사용 사례
- 라우팅 및 오케스트레이션: 멀티 에이전트 시스템에서 경량 라우터 역할
- RAG 파이프라인: 검색 증강 생성 시스템의 생성 모델로 활용
- 서브에이전트: 복잡한 에이전트 시스템 내 전문 서브에이전트
- 프라이빗 배포: 온프레미스 또는 사내 환경 구축
설치
HuggingFace에서 직접 다운로드 가능하다:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("JetBrains/Mellum2-12B-A2.5B-Thinking")
tokenizer = AutoTokenizer.from_pretrained("JetBrains/Mellum2-12B-A2.5B-Thinking")누가, 어떤 경우에 쓰면 좋을까
- 온프레미스 AI 인프라를 구축하는 팀: Apache 2.0 라이선스로 상업적 사용이 자유롭고 사내 배포가 용이하다.
- 고처리량 코딩 에이전트 서비스: 빠른 추론이 핵심인 실시간 코드 완성이나 리뷰 자동화에 적합하다.
- 멀티 에이전트 오케스트레이션: 큰 모델의 오케스트레이터 아래에서 특화된 코딩 서브에이전트로 운용할 수 있다.
참고 자료
- Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains — HuggingFace Blog (2026-06-03)
관련 문서
- mai-thinking-1 — Microsoft 코딩 특화 경량 모델 MAI-Code-1-Flash 포함
- codex — OpenAI Codex AI 에이전트