AngelSlim은 Tencent가 오픈소스로 공개한 대형 모델 압축 툴킷이다. LLM·VLM·오디오 모델에 걸쳐 양자화, 투기적 디코딩(speculative decoding), 희소 어텐션을 통합 프레임워크 하나로 제공한다. 단일 GPU에서 Qwen3-235B, DeepSeek-R1 같은 초대형 모델의 양자화를 지원하는 점이 특징이다.
GitHub: Tencent/AngelSlim | 기술 보고서: arXiv:2602.21233
핵심 특징
- 고도로 통합: 주류 압축 알고리즘을 단일 프레임워크에 통합, 원클릭 사용
- 지속적 혁신: 자체 연구 알고리즘(DAQ, Sherry, TEQUILA 등) 단계적 공개
- 성능 우선: Qwen3-235B, DeepSeek-R1을 단일 GPU에서 처리 가능
지원 압축 전략
양자화
| 방식 | 대상 |
|---|---|
| FP8-Static/Dynamic | LLM, VLM, MoE |
| INT8-Dynamic | LLM, VLM |
| INT4-GPTQ/AWQ/GPTAQ | LLM, VLM |
| NVFP4 | Qwen3-32B, Qwen3-235B-A22B |
| LeptoQuant (FP8) | 추론 최적화 |
| Sherry (1.25비트) | 초저비트 양자화 |
| TEQUILA (3진 양자화) | 연구용 |
투기적 디코딩 (Speculative Decoding)
- Eagle3: LLM·VLM·오디오 모델 전 규모 지원
- SpecExit: 추론 조기 종료 알고리즘
기타 기법
- Stem: 희소 어텐션 (Sparse Attention)
지원 모델
- Hunyuan Dense/MoE, Qwen3/2.5, Qwen3-VL, DeepSeek-R1/V3, GLM-4.6, Kimi-K2
- HunyuanOCR, Qwen2.5-VL, Hunyuan-VL (VLM)
- Hunyuan-MT (번역 모델)
- FLUX (확산 모델)
설치 및 사용
pip install angelslim공식 문서에서 모델별 설정 파일과 상세 가이드를 제공한다.
자체 연구 알고리즘
- DAQ (2026.03): 사후 학습 중 파라미터 업데이트를 최소화하면서 지식을 보존하는 양자화 (arXiv:2603.22324)
- Sherry (2026.01): 하드웨어 효율적인 1.25비트 양자화 (arXiv:2601.07892)
- TEQUILA (2025.09): 3진 양자화 알고리즘 (arXiv:2509.23809)
활용 대상
- 텐센트 자체 모델(Hunyuan, Hy-MT 등)을 온디바이스 또는 엣지 환경에 배포하는 팀
- 단일 GPU로 초대형 MoE 모델을 양자화해야 하는 연구자·엔지니어
- 투기적 디코딩과 양자화를 함께 적용하려는 LLM 서빙 팀