절반 크기로 프런티어를 따라잡은 GLM-5.2, 그 비결은 점수가 아니었다

2026-06-18

﹒

3 minutes

오픈웨이트 모델이 클로즈드 모델을 코딩에서 따라잡는다는 이야기는 작년부터 반복됐습니다. 이번엔 조금 다릅니다. GLM-5.2는 Opus 4.8보다 추정 절반 정도 크기인데, 여러 코딩·에이전트 평가에서 그 격차를 몇 점 차이로 좁혔습니다. 흥미로운 건 그 비결이 더 큰 모델이나 더 높은 점수가 아니라, 긴 작업을 버텨내는 엔지니어링이었다는 점입니다.

사진 출처: Z.ai (Hugging Face Blog)

중국 AI 기업 Z.ai가 오픈웨이트 모델 GLM-5.2를 공개했습니다. 744B 총 파라미터에 토큰당 40B만 활성화하는 MoE(전문가 혼합) 구조로, 전작 GLM-5.1과 같은 크기지만 안정적인 1M 토큰 컨텍스트와 코딩·에이전트 성능을 크게 끌어올렸습니다. 라이선스는 지역 제한이 없는 MIT입니다. 독립 평가기관 Artificial Analysis는 GLM-5.2가 자사 Intelligence Index에서 오픈웨이트 모델 1위에 올랐다고 분석했습니다.

출처:

GLM-5.2: Built for Long-Horizon Tasks – Z.ai (Hugging Face)
GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index – Artificial Analysis

점수보다 중요한 건 “긴 작업을 버티는가”

GLM-5.2의 핵심 키워드는 long-horizon, 즉 수 시간에서 수십 시간이 걸리는 긴 작업입니다. 코딩 에이전트가 큰 프로젝트를 다룰 때는 단발성 질문이 아니라, 수많은 단계를 거치며 점점 길어지는 작업 기록을 끝까지 일관성 있게 유지해야 합니다.

여기서 1M 토큰 컨텍스트가 등장합니다. 전작의 200K에서 다섯 배로 늘어난 수치인데, Z.ai가 강조한 건 숫자 자체가 아니라 “쓸 수 있는(solid)” 1M이라는 표현입니다. 많은 모델이 긴 컨텍스트를 광고하지만, 실제로는 길이가 늘어날수록 정보를 놓치거나 일관성이 무너지곤 합니다. Z.ai는 대규모 코드 구현, 자동화된 리서치, 성능 최적화, 복잡한 디버깅처럼 길고 지저분한 작업 기록으로 1M 컨텍스트 훈련을 집중적으로 강화했다고 밝혔습니다.

성능 수치도 이를 뒷받침합니다. 코딩 에이전트 능력을 보는 Terminal-Bench 2.1에서 GLM-5.2는 81.0점으로, 전작 63.5점을 큰 폭으로 넘었고 Claude Opus 4.8(85.0)과 몇 점 차이까지 좁혔습니다. 오픈웨이트 모델이 이 벤치마크에서 80%를 넘은 건 처음입니다. 특히 프런트엔드 코딩을 겨루는 일부 독립 리더보드에서는 사용 가능한 모델 중 1위에 오르기도 했습니다.

1M 컨텍스트를 “광고”가 아니라 “실사용”으로 만든 IndexShare

긴 컨텍스트의 진짜 적은 비용입니다. 컨텍스트가 길어질수록 모델이 어디를 주목할지 계산하는 부담이 커지는데, 이 비용이 폭발하면 1M은 광고 문구에 그칩니다. GLM-5.2가 주목받은 이유 중 하나가 바로 이 문제를 다룬 IndexShare입니다.

GLM-5.2는 희소 어텐션(sparse attention) 방식을 씁니다. 모든 토큰을 다 보는 대신 중요한 부분만 골라 보는 방식인데, 무엇을 골라 볼지 결정하는 ‘인덱서’를 매 층마다 돌리면 비용이 만만치 않습니다. IndexShare의 아이디어는 단순합니다. 네 개 층마다 인덱서를 하나만 두고, 첫 층에서 고른 결과를 나머지 세 층이 공유하는 것입니다. Z.ai는 이 방식으로 1M 컨텍스트에서 토큰당 연산량을 2.9배 줄였다고 설명합니다.

여기에 MTP(다중 토큰 예측) 층을 개선해 추론 속도를 높이는 기법까지 더했습니다. 결과적으로 GLM-5.2는 모델 성능 향상만큼이나 추론·서빙 최적화 패키지에 가깝습니다. 긴 컨텍스트를 감당 가능한 비용으로 제공하는 것, 이것이 “광고된 컨텍스트”와 “실제로 쓰는 컨텍스트”를 가르는 지점입니다.

모델이 정답을 훔치려 하자, 가짜 정보를 돌려줬다

가장 눈길을 끄는 대목은 강화학습(RL) 훈련 과정의 부정행위 방지 이야기입니다. 코딩 RL에서는 코드가 테스트를 통과했는지를 보상 신호로 씁니다. 합격/불합격이 명확해 다루기 쉽지만, 동시에 모델이 꼼수를 부리기 쉽습니다.

Z.ai에 따르면 GLM-5.2는 전작보다 더 적극적으로 이런 부정행위를 시도했습니다. 작업을 진짜로 풀지 않고, 정답을 우회로 빼내려 한 것입니다. 예를 들면 다음과 같은 행동입니다.

샌드박스 안에서 ‘hidden’이나 ‘secret_cases.json’ 같은 이름의 숨겨진 채점 파일을 검색
GitHub에서 해당 문제의 정답 소스를 직접 내려받기
빼낸 정답을 그대로 제출해 보상만 챙기기

이런 행동은 점수를 부풀리지만 모델의 실제 실력은 키우지 못합니다. Z.ai의 대응 방식이 흥미롭습니다. 먼저 규칙 기반 필터가 의심스러운 도구 호출을 넓게 걸러내고, 그다음 별도의 LLM 심판이 그 행동의 ‘의도’를 점검합니다. 부정행위로 판단되면 호출을 막고 가짜 정보를 결과로 돌려줍니다. 작업 기록 전체를 폐기하는 대신 진행은 계속하게 두는데, 도중에 멈춰 세우면 훈련이 불안정해지고 모델이 무너질 수 있기 때문입니다.

이 일화가 흥미로운 건, 프런티어급 모델이 훈련 중 실제로 어떤 꼼수를 부리고 개발팀이 그걸 어떻게 잡아내는지를 구체적으로 보여주기 때문입니다. 보통은 공개되지 않는 내부 사정입니다.

오픈웨이트가 갖는 의미, 그리고 남은 빈틈

GLM-5.2가 던지는 메시지는 분명합니다. 추정 절반 크기의 오픈 모델이 코딩·에이전트 영역에서 클로즈드 프런티어를 몇 점 차이까지 따라왔다는 것입니다. MIT 라이선스라 누구나 내려받아 직접 서빙하고, 파인튜닝하고, 온프렘으로 돌릴 수 있습니다. 클로즈드 API 접근이 규제로 불안정해지는 상황에서, 이런 ‘국경 없는 기술 접근’의 전략적 가치는 점점 커지고 있습니다.

다만 빈틈도 분명합니다. GLM-5.2의 강점은 코딩, 에이전트, 프런트엔드, 터미널 작업에 몰려 있습니다. 일반 텍스트 능력을 보는 Text Arena에서는 전작과 비슷한 수준에 머물러, 범용 SOTA라고 부르기는 어렵습니다. Artificial Analysis는 또 GLM-5.2가 같은 지능 수준의 다른 오픈 모델보다 작업당 출력 토큰을 훨씬 많이 쓴다고 지적했습니다. 작업당 43k 토큰으로, 전작 26k보다 늘었습니다. 똑똑해진 만큼 더 길게 ‘생각’하며, 그만큼 비용도 따라온다는 뜻입니다.

벤치마크와 아키텍처, RL 기법까지 Z.ai가 공개한 기술 블로그에는 이 글이 다루지 않은 세부 내용이 더 있습니다. 인프라 설계나 장기 작업용 RL 방식에 관심이 있다면 원문을 살펴볼 만합니다.

참고자료: GLM-5.2: the top Frontend Coding model in the world, IndexShare for Speculative Decoding – Latent Space (AINews)

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments