중국에서 오픈소스 AI 모델 릴리스가 연일 이어지고 있습니다. DeepSeek, Kimi에 이어 이번엔 Z.ai가 GLM-5를 공개했죠. 744B 파라미터에 MIT 라이선스를 적용한 이 모델은 에이전트 작업에 특화되어 있고, 여러 코딩 벤치마크에서 오픈소스 모델 중 최상위 성능을 기록했습니다.

출처: GLM-5: From Vibe Coding to Agentic Engineering – Z.ai
규모와 아키텍처: DeepSeek 기술을 통합하다
GLM-5는 이전 버전인 GLM-4.7(355B 파라미터)에서 744B 파라미터로 크게 확장되었습니다. HuggingFace에 공개된 모델 파일 크기만 1.51TB에 달해, GLM-4.7의 717GB보다 2배 이상 커졌죠. MoE(Mixture of Experts) 구조를 사용해 실제 추론 시에는 40B 파라미터만 활성화되며, 사전학습 데이터는 23T에서 28.5T 토큰으로 증가했습니다.
주목할 점은 DeepSeek Sparse Attention(DSA)을 통합했다는 겁니다. DSA는 긴 컨텍스트를 효율적으로 처리하면서도 배포 비용을 크게 줄이는 기술인데, DeepSeek이 개발한 이 메커니즘이 이제 다른 중국 모델들에게도 빠르게 확산되고 있습니다. 오픈소스 생태계에서 핵심 기술이 공유되며 전체 성능이 함께 올라가는 흐름이죠.
에이전트 작업에 특화된 성능
Z.ai는 GLM-5를 “복잡한 시스템 엔지니어링과 장기 에이전트 작업(long-horizon agentic tasks)”을 위한 모델로 포지셔닝합니다. 장기 에이전트 작업이란 단순히 한 번의 질문에 답하는 게 아니라, 여러 단계를 거쳐 최종 목표를 달성하는 작업을 의미합니다. 예를 들어 코드베이스 전체를 분석해서 버그를 찾고 수정하거나, 복잡한 프로젝트를 여러 턴에 걸쳐 완성하는 것이죠.
Vending Bench 2라는 벤치마크에서 GLM-5는 오픈소스 모델 중 1위를 차지했습니다. 이 벤치마크는 AI에게 1년 동안 가상의 자판기 사업을 운영하게 하는데, GLM-5는 최종 계좌 잔액 $4,432를 기록하며 Claude Opus 4.5에 근접한 성과를 보였습니다. SWE-bench, Terminal-Bench 같은 코딩 벤치마크에서도 오픈소스 모델 중 상위권 성능을 보여줬고요.
Office 문서를 바로 만들어주는 실용성
GLM-5는 단순히 텍스트를 생성하는 데 그치지 않습니다. 사용자의 요청을 받아 Word 문서(.docx), PDF, Excel 스프레드시트(.xlsx)를 직접 생성할 수 있습니다. 기획서, 강의 계획서, 시험지, 재무 보고서 같은 실무 문서를 바로 파일로 만들어주는 거죠. Z.ai의 공식 앱에는 이런 기능을 활용하는 ‘에이전트 모드’가 추가되었고, 여러 턴에 걸친 협업도 지원합니다.
개발자를 위한 지원도 충실합니다. Claude Code, OpenClaw, Cline, Roo Code 등 인기 있는 코딩 에이전트 도구들과 호환되며, vLLM이나 SGLang 같은 로컬 배포 프레임워크도 지원합니다. 오픈소스 모델의 장점인 자체 서버 배포가 가능하다는 점에서, 데이터 보안이 중요한 기업이나 비용을 절감하고 싶은 개발자들에게 실질적인 선택지가 될 수 있습니다.
GPU 부족을 공개한 투명성
흥미로운 점은 Z.ai가 “제한된 컴퓨팅 자원(limited compute capacity)” 문제를 공개적으로 언급했다는 겁니다. GLM-5를 유료 플랜 사용자에게 점진적으로 롤아웃하며, 현재는 Max 플랜 사용자만 사용 가능하다고 밝혔죠. Reddit 커뮤니티에서는 이런 투명성을 긍정적으로 평가하는 반응이 나왔습니다. Google처럼 수요를 감당하지 못해 모델 성능을 몰래 낮추는 것보다, 솔직하게 상황을 공유하는 게 낫다는 거죠.
가속화되는 중국 오픈소스 경쟁
GLM-5 출시는 중국발 오픈소스 모델 경쟁이 얼마나 치열해졌는지 보여줍니다. 불과 며칠 사이 DeepSeek V4 출시 예고, Kimi K2.5 공개, MiniMax M2.5 발표가 이어졌고, GLM-5까지 합류했습니다. 특히 DeepSeek이 개발한 Sparse Attention 기술이 GLM-5에도 통합되면서, 핵심 기술이 오픈소스 생태계 전체에 빠르게 확산되는 양상입니다.
성능 격차도 빠르게 좁혀지고 있습니다. GLM-5는 여러 벤치마크에서 Claude Opus 4.5와 비교되고 있고, 일부 작업에서는 거의 대등한 수준에 도달했죠. 상용 모델과 오픈소스 모델 사이의 3개월 격차라는 말이 실감나는 시점입니다. 비용은 1/5~1/10 수준이면서 성능은 90% 수준에 육박하는 모델들이 계속 나온다면, 시장 지형이 크게 바뀔 수 있습니다.
참고자료:
- GLM-5: From Vibe Coding to Agentic Engineering – Simon Willison
- AINews: Z.ai GLM-5 – Latent Space

답글 남기기