GLM-5.2는 744B 전체 파라미터와 40B 활성 파라미터를 가진 대형 MoE 모델이라 원본 그대로 로컬 실행하기 어렵다. Unsloth 문서는 GGUF 양자화와 RAM/VRAM 오프로딩을 이용해 이 모델을 개인 장비에서 실행하는 현실적인 경로를 제시한다.
핵심 요구사항
Unsloth는 동적 2-bit quant인 UD-IQ2_M이 약 239GB 디스크 공간을 사용한다고 설명한다. 256GB unified memory Mac, 24GB GPU와 256GB RAM 조합처럼 모델 파일보다 충분히 큰 총 메모리가 필요하다. 1-bit quant는 더 작은 장비에서도 올라갈 수 있지만 품질과 속도 타협이 커진다.
실행 흐름
가장 쉬운 경로는 Unsloth Studio다.
curl -fsSL https://unsloth.ai/install.sh | shWindows에서는 PowerShell 설치 스크립트를 제공한다. Studio는 GGUF와 safetensors 모델 검색·다운로드, RAM 오프로딩, 멀티 GPU 감지, Python/Bash 코드 실행을 한 UI에서 처리한다.
운영 팁
- 모델 파일 크기보다 여유 있는 총 메모리를 확보한다.
- 장문 컨텍스트를 바로 1M까지 밀기보다 실제 작업 길이에서 prefill 시간과 응답 지연을 먼저 측정한다.
- 코딩 에이전트에 붙일 때는 claude-code-tutorial-local-models처럼 OpenAI 호환 엔드포인트를 거치는 구성이 관리하기 쉽다.
- 비용 비교는 API 가격보다 지연시간, 전력, 장비 점유, 실패 재시도 비용까지 포함해 봐야 한다.
관련 문서
- glm-5-2 — 1M 컨텍스트와 장기 코딩 작업에 초점을 맞춘 MIT 오픈 가중치 모델
- glm-5-2-tips-vs-opus — Claude Opus와 장기 코딩 작업에서 비교할 때 봐야 할 것
- llm-fine-tuning-tips-beyond-lora — LoRA 이후의 PEFT·GRPO·로컬 학습 선택지
참고 자료
- GLM-5.2 – How to Run Locally — Unsloth Documentation (2026-06)