MiniMax M2가 보여준 효율성 혁명: Claude의 8% 비용, 2배 빠른 속도

2025-10-28

﹒

4 minutes

중국 AI 스타트업 MiniMax가 공개한 M2 모델이 AI 업계의 ‘더 크면 더 좋다’는 공식에 정면으로 도전장을 던졌습니다. 2,300억 개 파라미터 중 100억 개만 활성화하는 독특한 구조로 Claude Opus 4.1을 뛰어넘는 성능을 보이면서도, 비용은 Claude Sonnet의 8%, 속도는 2배 빠른 놀라운 효율성을 달성했습니다.

MiniMax M2의 코딩 및 에이전트 작업 벤치마크 비교 (출처: MiniMax)

핵심 포인트:

선택적 파라미터 활성화의 효과: 2,300억 파라미터 중 100억만 활성화해 비용 92% 절감, 속도 2배 향상. 작업마다 필요한 파라미터만 선택적으로 사용하는 MoE 구조가 핵심
오픈소스 모델의 도약: Artificial Analysis Intelligence Index에서 61점을 기록하며 오픈소스 모델 중 전 세계 1위 달성. Claude Opus 4.1(59점)과 Qwen 3 72B(58점)를 제쳤고, SWE-bench Verified에서도 69.4점으로 Claude Sonnet 4(72.7점)에 육박
실전 코딩 능력 검증: Terminal-Bench 46.3점으로 Claude Sonnet 4.5(50점)와 근소한 차이, Gemini 2.5 Pro(25.3점)를 압도. BrowseComp에서는 44점으로 Claude Sonnet 4.5(19.6점)의 2배 이상 성능 발휘

AI 업계의 파라미터 경쟁, 실용성을 잃다

AI 모델 개발 경쟁은 ‘더 크고 더 많이’를 향해 달려왔습니다. 수천억 개의 파라미터, 막대한 GPU 자원, 천문학적인 학습 비용. 하지만 실제 개발자들이 원하는 건 다릅니다. 복잡한 코드를 이해하고 여러 파일을 동시에 다루며, 실수를 스스로 고칠 수 있는 실용적인 도구. 비용 걱정 없이 사용할 수 있는 AI 어시스턴트가 필요했습니다.

MiniMax M2는 바로 이 지점을 공략했습니다. 개발자들이 실제로 겪는 문제를 해결하기 위해 만들어진 모델입니다. MiniMax 팀은 자사 내부에서 다양한 AI 에이전트를 구축하면서 기존 모델들의 한계를 절감했다고 밝혔습니다. “최고의 해외 모델은 성능은 좋지만 매우 비싸고 느립니다. 국내 모델은 저렴하지만 성능과 속도에 격차가 있죠.” 이런 딜레마가 M2 개발의 출발점이었습니다.

2,300억을 갖고도 100억만 쓰는 이유

M2의 핵심 혁신은 ‘선택적 파라미터 활성화(Selective Parameter Activation)’입니다. 전체 2,300억 개 파라미터 중 실제로는 100억 개만 작동시키는 방식이죠. 마치 고성능 엔진에서 필요한 실린더만 가동하는 것과 같습니다.

이 방식이 가져온 변화는 명확합니다. 입력 토큰 100만 개당 \$0.30, 출력 토큰 100만 개당 $1.20. Claude 3.5 Sonnet 대비 약 8%의 비용입니다. 추론 속도는 초당 약 100 토큰으로 Claude보다 2배 빠릅니다. 적은 파라미터를 활성화하니 계산량이 줄고, 에너지 소비도 감소하며, 인프라 비용도 낮아졌습니다.

하지만 효율성만 좋다고 성능까지 좋은 건 아닙니다. M2는 어떻게 효율성과 성능을 동시에 잡았을까요? 비결은 ‘실제 사용’에 있었습니다. MiniMax 팀은 알고리즘 엔지니어뿐 아니라 비즈니스와 백엔드 개발자들까지 모델 개발에 참여시켰습니다. 실제 업무에 투입하면서 문제를 발견하고 개선하는 과정을 반복했죠. 복잡한 에이전트 시나리오를 마스터한 후, 그 노하우를 수학이나 지식 같은 전통적인 LLM 작업에 적용하니 자연스럽게 우수한 결과가 나왔다고 합니다. 벤치마크 점수를 위한 모델이 아니라 실무를 위한 모델을 만든 결과입니다.

Artificial Analysis Intelligence Index에서 MiniMax M2는 오픈소스 모델 중 1위를 기록 (출처: MiniMax)

벤치마크가 증명한 실력

Artificial Analysis Intelligence Index v3.0에서 MiniMax M2는 61점을 기록했습니다. 이는 오픈소스 모델 중 전 세계 1위이며, Claude Opus 4.1(59점)과 Qwen 3 72B(58점), DeepSeek-V3.2(57점)를 앞선 결과입니다. 수학, 과학, 코딩, 에이전트 작업을 아우르는 10개 테스트를 종합한 점수입니다.

코딩 분야에서 특히 인상적인 성능을 보였습니다. 실제 GitHub 이슈를 해결하는 능력을 측정하는 SWE-bench Verified에서 69.4점을 기록해 GLM-4.6(68점)과 Kimi K2(69.2점)와 어깨를 나란히 했고, Claude Sonnet 4(72.7점)에도 근접했습니다.

터미널 명령 실행과 코드 편집 능력을 평가하는 Terminal-Bench에서는 46.3점으로 Gemini 2.5 Pro(25.3점)를 압도했고, Claude Sonnet 4.5(50점)와도 근소한 차이를 보였습니다. 웹 검색과 정보 수집 능력을 측정하는 BrowseComp에서는 44점으로 Claude Sonnet 4.5(19.6점)의 2배 이상 성능을 발휘했습니다.

숫자로만 보면 와닿지 않을 수 있습니다. 실제로는 어떨까요?

실전에서 빛나는 순간들

개발자 커뮤니티의 테스트 결과도 흥미롭습니다. Analytics Vidhya의 실제 테스트에서 M2는 오랫동안 많은 LLM을 곤란하게 만들었던 “9.11과 9.9 중 어느 것이 더 큰가?” 같은 수학 문제도 정확하게 해결했습니다. 처음엔 9.11이 더 크다고 가정했지만, 스스로 오류를 발견하고 수정하는 사고 과정을 보여줬죠.

더 중요한 건 멀티 파일 코딩과 에이전트 워크플로우 능력입니다. M2는 여러 파일에 걸친 코드 수정, 컴파일-실행-수정 반복, 테스트 검증까지 종합적으로 처리합니다. 단순히 코드를 작성하는 게 아니라 실제 개발자처럼 전체 프로젝트를 이해하고 다룹니다.

MiniMax 팀은 실제로 M2를 활용해 다양한 내부 에이전트를 구축했다고 합니다. 온라인 데이터 분석, 기술 이슈 조사, 일상적인 프로그래밍, 사용자 피드백 처리, 심지어 채용 이력서 스크리닝까지. 이런 에이전트들이 팀과 함께 일하면서 회사 발전을 이끌고 있다는 게 팀의 설명입니다.

MiniMax M2와 주요 플래그십 모델들의 성능 비교 (출처: Analytics Vidhya)

그래서 어떻게 쓸 수 있나요?

MiniMax M2는 현재 세 가지 방법으로 사용할 수 있습니다. 모두 제한된 기간 동안 무료로 제공됩니다.

MiniMax Agent 웹 서비스를 통한 사용이 가장 간편합니다. agent.minimax.io에 접속하면 두 가지 모드를 선택할 수 있습니다. Lightning 모드는 대화형 질문답변이나 간단한 코딩에 적합한 고속 모드입니다. Pro 모드는 심층 리서치, 풀스택 개발, PPT/보고서 작성, 웹 개발처럼 복잡하고 시간이 걸리는 작업에 최적화되어 있습니다.

API를 통한 통합도 가능합니다. MiniMax Open Platform(platform.minimax.io)에서 API를 제공합니다. Anthropic의 API와 호환되는 형식을 지원하기 때문에 기존 Claude 기반 애플리케이션에 쉽게 통합할 수 있습니다.

직접 배포를 원한다면 Hugging Face에서 모델 가중치를 다운로드할 수 있습니다. vLLM이나 SGLang을 사용한 배포를 권장하며, MIT 라이선스로 공개되어 상업적 사용도 가능합니다. 최적 성능을 위해서는 temperature=1.0, top_p=0.95, top_k=40 설정을 추천합니다.

한 가지 주의할 점이 있습니다. M2는 interleaved thinking 모델입니다. 모델의 사고 과정이 <think>...</think> 태그로 감싸져 출력되는데, 이 부분을 히스토리에 그대로 유지해야 합니다. 제거하면 성능이 떨어지니 주의하세요.

믿을 만한 모델일까요?

새로운 모델을 접할 때 가장 궁금한 건 ‘정말 믿을 만한가’입니다. 몇 가지 지표로 판단해볼 수 있습니다.

첫째, 독립적인 벤치마크 결과입니다. Artificial Analysis같은 제3자 평가에서 검증된 성능을 보였습니다. 둘째, 오픈소스 공개입니다. 전체 모델 가중치를 MIT 라이선스로 공개했다는 건 성능에 대한 자신감의 표현입니다. 셋째, 실제 프로덕션 사용 사례입니다. MiniMax 팀이 내부적으로 광범위하게 사용하고 있다는 점도 신뢰성을 뒷받침합니다.

물론 완벽한 모델은 없습니다. 컨텍스트 윈도우는 20만 토큰으로 일부 대형 모델보다 작고, 초당 토큰 속도는 빠르지만 첫 토큰까지의 지연시간(TTFT)은 1.13초로 일부 모델보다 느립니다. 하지만 대부분의 실용적인 개발 작업에서는 이런 제약이 크게 문제되지 않습니다.

오픈소스가 proprietary를 따라잡는 시대

MiniMax M2가 보여준 건 단순히 ‘좋은 모델 하나’가 아닙니다. AI 시장의 판도가 바뀌고 있다는 신호입니다. 오픈소스 모델이 이제 proprietary 모델과 대등하거나 특정 영역에서는 더 나은 성능을 보이기 시작했습니다.

특히 효율성이 새로운 경쟁력이 되고 있습니다. 무작정 큰 모델이 아니라 작업에 최적화된 똑똑한 모델. 막대한 비용 없이도 실용적으로 쓸 수 있는 모델. 이것이 다음 세대 AI 경쟁의 핵심이 될 것으로 보입니다. M2는 그 방향의 첫 신호탄입니다.

참고자료:

Like?

Fediverse reactions

AI 벤치마크 AI 에이전트 Claude 대안 LLM MiniMax M2 SWE-Bench 비용 효율 선택적 파라미터 활성화 오픈소스 AI 코딩 AI

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

Join the conversation on Bluesky

AI Sparkup

MiniMax M2가 보여준 효율성 혁명: Claude의 8% 비용, 2배 빠른 속도

AI 업계의 파라미터 경쟁, 실용성을 잃다

2,300억을 갖고도 100억만 쓰는 이유

벤치마크가 증명한 실력

실전에서 빛나는 순간들

그래서 어떻게 쓸 수 있나요?

믿을 만한 모델일까요?

오픈소스가 proprietary를 따라잡는 시대

Fediverse reactions

AI Sparkup 구독하기

Comments

Comments

답글 남기기 응답 취소

More posts

AI가 만든 가짜 영수증의 충격: 0%에서 14%로, 9개월 만에 급증한 기업 경비 사기

OpenAI의 구글 TPU 검토에 NVIDIA가 긴급 대응한 진짜 이유

ReAct부터 Human-in-the-Loop까지: 실전 AI 에이전트 패턴 6가지

MiniMax M2가 보여준 효율성 혁명: Claude의 8% 비용, 2배 빠른 속도