
AI 에이전트가 아무리 똑똑해도 비용이 부담스러우면 실무에 도입하기 어렵습니다. MiniMax가 발표한 M2.5는 이 문제를 정면으로 다룹니다. 초당 100토큰 속도로 연속 실행할 경우 시간당 1달러, 50토큰이면 0.3달러에 불과하죠. 연간 1만 달러면 M2.5 인스턴스 4개를 1년 내내 돌릴 수 있습니다.
출처: MiniMax M2.5: Built for Real-World Productivity – MiniMax
실전 환경에서 훈련된 에이전트
M2.5는 수십만 개의 복잡한 실제 환경에서 강화학습으로 광범위하게 훈련됐습니다. 그 결과 SWE-Bench Verified에서 80.2%, Multi-SWE-Bench에서 51.3%, BrowseComp에서 76.3%를 기록하며 코딩, 에이전틱 도구 사용, 검색, 오피스 작업 등 경제적으로 가치 있는 작업에서 최고 수준의 성능을 보입니다.
효율적인 추론과 최적의 작업 분해 능력 덕분에 복잡한 에이전틱 작업을 빠르게 완료합니다. SWE-Bench Verified 평가를 이전 버전인 M2.1보다 37% 빠르게 끝냈는데, 이는 Claude Opus 4.6과 동등한 속도입니다.
소프트웨어 아키텍트처럼 생각하기
M2.5의 중요한 개선점은 아키텍트처럼 생각하고 계획하는 능력입니다. 훈련 중 자연스럽게 나타난 특성인데, 코드를 작성하기 전에 경험 많은 소프트웨어 아키텍트의 관점에서 프로젝트의 기능, 구조, UI 디자인을 적극적으로 분해하고 계획합니다.
10개 이상의 프로그래밍 언어(Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby 등)로 20만 개 이상의 실제 환경에서 훈련됐습니다. 단순 버그 수정을 넘어 0에서 1로 시스템 설계, 1에서 10으로 시스템 개발, 10에서 90으로 기능 반복, 90에서 100으로 포괄적인 코드 리뷰와 시스템 테스트까지 복잡한 시스템의 전체 개발 라이프사이클에서 안정적인 성능을 제공합니다.
검색과 도구 호출의 효율성
효과적인 도구 호출과 검색은 모델이 복잡한 작업을 자율적으로 처리하는 전제 조건입니다. M2.5는 BrowseComp, Wide Search 같은 벤치마크에서 업계 최고 수준의 성능을 달성했고, 익숙하지 않은 스캐폴딩 환경에서도 안정적인 성능을 보입니다.
이전 버전 대비 의사결정도 훨씬 개선됐습니다. 더 정확한 검색 라운드와 토큰 효율성으로 문제를 해결하는 법을 학습했죠. BrowseComp, Wide Search, 내부 벤치마크 RISE를 포함한 여러 에이전틱 작업에서 M2.1보다 약 20% 적은 라운드로 더 나은 결과를 냈습니다. 답을 맞히는 것뿐 아니라 더 효율적인 경로로 추론한다는 의미입니다.
오피스 작업에서도 전문가 수준
M2.5는 오피스 시나리오에서 실제로 납품 가능한 결과물을 생산하도록 훈련됐습니다. 금융, 법률, 사회과학 분야의 선임 전문가들과 긴밀히 협력하며, 이들이 요구사항 설계, 피드백 제공, 기준 정의, 데이터 구축에 직접 참여했습니다. 업계의 암묵적 지식을 모델 훈련 파이프라인에 반영한 거죠.
그 결과 Word, PowerPoint, Excel 재무 모델링 같은 고부가가치 작업공간 시나리오에서 상당한 역량 개선을 이뤘습니다. 내부 Cowork Agent 평가 프레임워크(GDPval-MM)에서 다른 주류 모델과 비교해 평균 59.0%의 승률을 기록했습니다.
MiniMax는 자체적으로도 M2.5의 수혜를 받고 있습니다. 회사 일일 운영의 30%가 M2.5에 의해 자율적으로 완료되며, R&D, 제품, 영업, HR, 재무 등의 기능을 아우릅니다. 특히 코딩 시나리오에서 두드러져, M2.5가 생성한 코드가 새로 커밋된 코드의 80%를 차지합니다.
강화학습 스케일링의 성과
M2.5의 빠른 발전을 이끈 핵심 요인 중 하나는 강화학습의 스케일링입니다. MiniMax가 회사에서 수행하는 대부분의 작업과 작업공간이 RL 훈련 환경으로 만들어졌고, 현재까지 수십만 개의 환경이 구축됐습니다.
내부에서 설계한 에이전트 네이티브 RL 프레임워크 Forge는 기본 훈련-추론 엔진과 에이전트를 완전히 분리하는 중간 계층을 도입해, 임의의 에이전트 통합을 지원하고 에이전트 스캐폴드와 도구 전반에 걸친 모델의 일반화를 최적화합니다. 시스템 처리량 개선을 위해 비동기 스케줄링 전략을 최적화하고 훈련 샘플을 위한 트리 구조 병합 전략을 설계해 약 40배의 훈련 속도 향상을 달성했습니다.
MiniMax는 곧 별도의 기술 블로그에서 RL 스케일링에 대한 더 포괄적인 소개를 공개할 예정입니다. M2.5와 M2.5-Lightning은 현재 연구 프리뷰 형태로 제공되며, 선별된 파트너들에게 API 접근이 제공되고 있습니다.

답글 남기기