AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

MiniMax-M3, 오픈웨이트 최고 성능 모델 등극, Claude Sonnet 4.6과 동급

Claude Sonnet 4.6, GPT-5.5와 나란히 서는 성능을 가진 모델이 오픈웨이트로 공개될 예정입니다. 중국 스타트업 MiniMax가 만든 M3 얘기입니다.

사진 출처: Artificial Analysis

AI 벤치마크 전문 기관 Artificial Analysis가 MiniMax의 신규 모델 MiniMax-M3를 평가한 결과를 공개했습니다. M3는 AI Intelligence Index 기준 55점으로 현재 오픈웨이트 모델 중 가장 높은 점수를 기록했으며, 실전 성능 지표에서 Claude Sonnet 4.6(max, 1676점)과 동급 수준을 보였습니다.

출처: MiniMax-M3: Leading open weights model, once the weights are released – Artificial Analysis

전작 대비 전방위 개선

M3는 MiniMax의 M-시리즈 중 처음으로 이미지와 영상 입력을 지원하는 멀티모달 모델입니다. 전작 MiniMax-M2.7(50점)과 비교하면 Intelligence Index에서 5점 상승했고, 주요 벤치마크 전반에서 개선이 있었습니다.

특히 눈에 띄는 항목은 HLE(+9점), GPQA Diamond(+6점), IFBench(+7점)입니다. 쉽게 말하면 어려운 추론 문제와 복잡한 지시 수행 능력이 한 단계 올라선 셈이죠. 컨텍스트 창도 기존 200K 토큰에서 100만 토큰으로 대폭 늘었습니다.

흥미로운 건 성능이 오른 만큼 토큰 사용량이 크게 늘지 않았다는 점입니다. M2.7 대비 출력 토큰이 약 5% 증가하는 선에서 점수는 5점 높아졌는데, 추론 효율성이 함께 개선됐다는 신호로 읽힙니다.

실전 성능과 멀티모달 능력

Artificial Analysis의 GDPval-AA는 44개 직군, 9개 산업군의 실무 작업을 기준으로 모델을 평가하는 지표입니다. M3는 여기서 약 1670점을 기록하며 Claude Sonnet 4.6(max, 1676점)과 사실상 동점대에 올랐습니다. GPT-5.5(xhigh, 1769점)와 Claude Opus 4.8(max, 1890점)보다는 아래지만, 최상위 독점 모델군 바로 아래에 자리 잡은 것이죠.

멀티모달 성능도 인상적입니다. MMMU-Pro 기준 약 80%를 기록해 GPT-5.5(79.9%)와 Kimi K2.6(79.4%)과 어깨를 나란히 했습니다. 다만 Gemini 3.5 Flash(84.3%)에는 다소 못 미칩니다. 주목할 점은 모든 오픈웨이트 모델이 비전 입력을 지원하는 건 아니라는 것입니다. M3는 이 부분에서도 경쟁력을 갖췄습니다.

한 가지 특이한 패턴은 할루시네이션 평가(AA-Omniscience)에서 드러납니다. M3는 전체 질문의 30.9%만 답하고 나머지는 기권하는 전략을 택했는데, 이 덕에 할루시네이션 비율은 16.1%로 낮지만 정확도 역시 15.0%에 그쳤습니다. 불확실한 건 답하지 않는다는 일종의 보수적 설계 철학입니다.

가격과 웨이트 공개 예정

API 가격은 입력 토큰 $0.30/백만, 출력 토큰 $1.20/백만(512K 이하 컨텍스트 기준)으로 책정됐습니다. 컨텍스트를 512K~1M 범위로 늘리면 각각 $0.60/$2.40으로 올라갑니다. 현재는 MiniMax 자사 API와 SiliconFlow, GMI, Novita를 통해 사용할 수 있습니다.

아직 웨이트가 공개되지 않은 상태지만, MiniMax는 약 10일 내 공개할 계획이라고 밝혔습니다. 이전에 M2.7 웨이트를 공개할 때는 상업적 제한이 있는 라이선스를 적용했었는데, M3도 비슷한 방식을 택할 가능성이 있습니다.

오픈웨이트 진영의 성능 추격

이번 M3의 등장이 의미 있는 건, 단순히 점수가 높아서가 아닙니다. GPT-5.5나 Claude Sonnet 4.6 같은 최상위 독점 모델과 실전 성능이 거의 같아졌다는 점, 그리고 그 모델이 오픈웨이트로 공개될 예정이라는 점이 핵심입니다.

불과 얼마 전까지만 해도 이 성능 구간은 독점 모델의 영역이었습니다. M3의 등장은 오픈웨이트 진영이 프론티어 독점 모델을 빠르게 따라잡고 있다는 흐름의 연장선이고, Kimi K2.6(54점), MiMo-V2.5-Pro(54점) 등 비슷한 수준의 모델들이 동시에 등장하고 있다는 점도 그 흐름을 뒷받침합니다.

상세 벤치마크 데이터와 다른 모델과의 비교는 원문에서 확인할 수 있습니다.


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다