AI가 자신의 훈련 과정을 직접 고쳐가며 스스로 더 나은 모델이 됐습니다. MiniMax가 공개한 M2.7은 단순히 성능이 개선된 신규 모델이 아니라, 자신의 강화학습 파이프라인을 100회 이상 스스로 반복 최적화한 첫 번째 사례입니다.

중국 AI 스타트업 MiniMax가 2026년 3월 18일 M2.7을 출시했습니다. 이 모델은 개발 과정에서 자체 메모리를 업데이트하고, 강화학습 실험을 보조하는 복잡한 스킬을 수십 개 직접 구축했으며, 실험 결과를 바탕으로 자신의 학습 과정까지 개선했습니다. MiniMax는 이를 “모델 자기 진화의 첫 번째 에코”라고 표현합니다.
출처: MiniMax M2.7: Early Echoes of Self-Evolution – MiniMax 공식 블로그
100번 루프를 혼자 돌린 AI
MiniMax는 M2.7에게 내부 강화학습 팀의 연구 에이전트 하네스를 구축하는 임무를 맡겼습니다. 이 에이전트는 실험 계획부터 데이터 파이프라인, 코드 디버깅, 성능 측정까지 RL팀의 일상 업무 전반을 처리합니다. 연구자가 개입하는 건 핵심 의사결정 순간뿐이고, 전체 워크플로우의 30~50%를 M2.7이 직접 담당합니다.
자기 진화의 핵심 실험은 이 에이전트에게 모델의 코딩 성능을 개선하도록 맡긴 것이었습니다. M2.7은 완전 자율로 다음 사이클을 100회 이상 반복했습니다.
- 실패 케이스 분석
- 변경 계획 수립
- 스캐폴드 코드 수정
- 평가 실행
- 결과 비교 후 유지 또는 롤백 결정
이 과정에서 M2.7은 스스로 유효한 최적화를 발견했습니다. 샘플링 파라미터(temperature, frequency penalty 등)의 최적 조합을 체계적으로 탐색하고, 버그를 수정한 뒤 동일한 패턴이 있는 다른 파일도 자동으로 검색하는 워크플로우 지침을 직접 설계했습니다. 최종 결과는 내부 평가 세트 기준 30% 성능 향상이었습니다.
GLM-5 수준 성능, 1/3 비용
자기 진화만 새로운 게 아닙니다. 비용 효율 측면에서도 눈에 띄는 수치가 나왔습니다.
Artificial Analysis에 따르면 M2.7의 API 비용은 입력 토큰 100만 개당 $0.30, 출력 기준 $1.20입니다. 인텔리전스 인덱스 점수는 50점으로 지난달 오픈소스 SOTA로 평가받은 Z.ai의 GLM-5와 동등한 수준이지만, GLM-5 대비 1/3 수준의 비용입니다.
소프트웨어 엔지니어링 벤치마크에서는 SWE-Pro 56.22%, Terminal Bench 2 57.0%를 기록해 GPT-5.3 Codex와 유사한 수준을 보였습니다. 전문 업무 측면에서는 오픈소스 모델 중 최고 ELO인 1,495점을 GDPval-AA에서 달성했으며, Excel·PPT·Word 등 40개 이상의 복잡한 스킬에서 97%의 지시 이행률을 유지했습니다.
MLE Bench Lite 22개 머신러닝 대회에서는 24시간 자율 최적화 3회 평균 메달 획득률 66.6%를 기록해, Opus 4.6(75.7%)과 GPT-5.4(71.2%)에 이어 Gemini 3.1과 동률을 보였습니다.
“AI가 AI를 만든다”는 흐름의 현실화
이 접근법이 MiniMax만의 시도는 아닙니다. OpenAI도 GPT-5.3 Codex 개발 당시 모델이 학습 과정에서 버그를 찾고, 배포를 관리하고, 테스트 결과를 평가하는 데 직접 참여했다고 밝혔습니다. AI가 자신의 개발 사이클 일부를 담당하는 방식이 실험적 접근에서 실제 개발 관행으로 자리 잡는 조짐입니다.
MiniMax는 공식 블로그에서 더 나아가 미래에는 데이터 구성, 모델 학습, 추론 아키텍처, 평가까지 인간 개입 없이 AI가 전체 사이클을 조율하는 “완전 자율 자기 진화”로 나아갈 것이라는 방향성을 밝혔습니다. 현재 M2.7은 MiniMax Agent와 API 플랫폼을 통해 사용 가능하며, 이전 모델과 달리 가중치는 공개되지 않았습니다.
자기 진화의 작동 원리, 상세 벤치마크 결과, 그리고 엔터테인먼트 유즈케이스를 위해 함께 공개된 오픈소스 프로젝트 OpenRoom에 대한 내용은 MiniMax 공식 블로그에서 확인할 수 있습니다.
참고자료:

답글 남기기