GLM-5.2는 Z.ai가 공개한 오픈 가중치 대형 언어 모델이다. GLM-5.1과 같은 744B 전체 파라미터, 40B 활성 파라미터 구조를 유지하면서 1M 토큰 컨텍스트, 장기 코딩 작업, 과학 추론, 에이전트형 벤치마크 성능을 크게 끌어올린 것이 특징이다.
핵심 지표
| 항목 | 내용 |
|---|---|
| 모델 크기 | 744B total / 40B active parameters |
| 라이선스 | MIT |
| 컨텍스트 | 1M tokens |
| 주요 타깃 | 장기 코딩 작업, 에이전트 실행, 과학 추론 |
| Artificial Analysis Intelligence Index v4.1 | 51점, 오픈 가중치 모델 1위 |
| API 가격 | $1.4 input / $4.4 output / $0.26 cache hit per 1M tokens |
Artificial Analysis 기준으로 GLM-5.2는 MiniMax-M3, DeepSeek V4 Pro, Kimi K2.6보다 높은 Intelligence Index 점수를 기록했다. GDPval-AA v2에서는 1524점을 받아 일부 폐쇄형 프런티어 모델과 비슷한 수준으로 평가됐다. 다만 과제당 출력 토큰이 약 43k로 많아, 같은 지능 구간의 다른 오픈 가중치 모델보다 토큰 효율은 낮은 편이다.
장기 코딩 작업용 1M 컨텍스트
GLM-5.2의 핵심 포지셔닝은 “긴 입력을 받는 모델”보다 “긴 작업을 안정적으로 수행하는 모델”에 가깝다. Z.ai는 대규모 구현, 자동 연구, 성능 최적화, 복잡한 디버깅 같은 코딩 에이전트 시나리오를 1M 컨텍스트 학습에 포함했다고 설명한다.
공식 블로그 기준으로 GLM-5.2는 FrontierSWE, PostTrainBench, SWE-Marathon 같은 장기 소프트웨어 엔지니어링 벤치마크에서 오픈소스 모델 중 최상위권에 위치한다. claude-code나 codex 같은 코딩 에이전트에 오픈 가중치 모델을 붙이려는 팀에게 중요한 신호다.
IndexShare와 추론 최적화
GLM-5.2는 장문 컨텍스트 비용을 낮추기 위해 IndexShare를 적용한다. sparse attention 계층마다 별도 인덱서를 계산하는 대신, 4개 sparse attention layer가 같은 lightweight indexer를 공유한다. Z.ai는 1M 컨텍스트 길이에서 토큰당 FLOPs를 2.9배 줄인다고 설명한다.
또한 multi-token prediction(MTP) 레이어를 개선해 speculative decoding acceptance length를 최대 20% 늘렸다. 장문 코딩 작업에서는 prefill, KV cache, CPU-side scheduling이 병목이 되므로 모델 구조만이 아니라 서빙 엔진 최적화가 같이 필요하다는 점도 강조된다.
어디에 적합한가
- 오픈 가중치 기반 코딩 에이전트: MIT 라이선스와 1M 컨텍스트가 조합돼 폐쇄형 API 의존도를 낮출 수 있다.
- 장문 리포지토리 분석: 단일 파일 요약보다 여러 파일·테스트·이슈를 오래 붙잡는 작업에 초점을 둔다.
- 프런티어 모델 대체 후보 탐색: 성능은 강하지만 출력 토큰 사용량이 많으므로 비용 모델을 실제 워크로드로 확인해야 한다.
관련 문서
- glm-5v-turbo — 멀티모달 에이전트를 위한 GLM 계열 모델
- kimi — 장기 코딩·에이전트 작업에 특화된 오픈소스 LLM
- deepseek-v4 — 초대형 오픈 가중치 MoE 모델
- claude-code-tutorial-local-models — Claude Code를 로컬 모델과 함께 쓰는 방법
참고 자료
- GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index — Artificial Analysis (2026-06-17)
- GLM-5.2: Built for Long-Horizon Tasks — Hugging Face / Z.ai (2026-06-17)