MiniMax M2는 MiniMax가 공개한 오픈 가중치 LLM 시리즈로, 대표 모델은 229.9B 전체 파라미터와 9.8B 활성 파라미터를 쓰는 sparse MoE 구조다. 기술 보고서의 핵심은 단순 벤치마크보다, 실제 에이전트 운영에서 중요한 prefix caching, tool latency, executable environment, scaffold iteration 같은 제약을 모델 설계에 반영했다는 점이다.
설계상 특징
| 요소 | 설명 |
|---|---|
| Full attention | sliding-window나 linear attention보다 운영 품질과 prefix caching을 우선 |
| Fine-grained MoE | 128 experts, top-8 routing 계열로 작은 활성 파라미터에서 성능 확보 |
| 에이전트 학습 데이터 | GitHub PR, Docker 실행 환경, 테스트 보상을 이용해 소프트웨어 작업 궤적 구성 |
| Interleaved thinking | 이전 턴의 reasoning block을 유지해 멀티스텝 작업 성능 보존 |
| Speed reward | 토큰 수뿐 아니라 벽시계 시간 기준 보상으로 느린 도구 호출을 줄임 |
| Self-evolution | M2.7이 내부 RL 반복과 scaffold 최적화 일부를 자율 수행 |
왜 프로덕션 지향인가
긴 컨텍스트를 잘 처리하는 것만으로 코딩 에이전트가 잘 되는 것은 아니다. 실제 환경에서는 같은 저장소 문맥을 반복해 보내므로 prefix cache가 중요하고, 도구 호출이 느리면 전체 작업 시간이 늘어난다. MiniMax M2 보고서는 이런 운영 조건이 모델 학습과 보상 설계의 일부가 되고 있음을 보여준다.
사용 대상
- 오픈 가중치 기반 에이전트 모델을 검토하는 팀
- MoE 모델에서 추론 비용과 코딩 성능의 균형을 비교하는 연구자
- agent-harness와 모델 학습 루프를 함께 최적화하려는 플랫폼 개발자
관련 문서
- glm-5-2 — 1M 컨텍스트와 장기 코딩 작업에 초점을 맞춘 오픈 가중치 모델
- north-mini-code — Cohere의 소형 코딩 특화 MoE 모델
- agent-harness — 에이전트 실행 루프와 하네스 설계
참고 자료
- MiniMax M2 and Production-Oriented Model Design — Sebastian Raschka (2026-05-27)