AngelSlim – Tencent의 통합 대형 모델 압축 툴킷

핵심 특징
지원 압축 전략
양자화
투기적 디코딩 (Speculative Decoding)
기타 기법
지원 모델
설치 및 사용
자체 연구 알고리즘
활용 대상

AngelSlim은 Tencent가 오픈소스로 공개한 대형 모델 압축 툴킷이다. LLM·VLM·오디오 모델에 걸쳐 양자화, 투기적 디코딩(speculative decoding), 희소 어텐션을 통합 프레임워크 하나로 제공한다. 단일 GPU에서 Qwen3-235B, DeepSeek-R1 같은 초대형 모델의 양자화를 지원하는 점이 특징이다.

GitHub: Tencent/AngelSlim | 기술 보고서: arXiv:2602.21233

핵심 특징

고도로 통합: 주류 압축 알고리즘을 단일 프레임워크에 통합, 원클릭 사용
지속적 혁신: 자체 연구 알고리즘(DAQ, Sherry, TEQUILA 등) 단계적 공개
성능 우선: Qwen3-235B, DeepSeek-R1을 단일 GPU에서 처리 가능

지원 압축 전략

양자화

방식	대상
FP8-Static/Dynamic	LLM, VLM, MoE
INT8-Dynamic	LLM, VLM
INT4-GPTQ/AWQ/GPTAQ	LLM, VLM
NVFP4	Qwen3-32B, Qwen3-235B-A22B
LeptoQuant (FP8)	추론 최적화
Sherry (1.25비트)	초저비트 양자화
TEQUILA (3진 양자화)	연구용

투기적 디코딩 (Speculative Decoding)

Eagle3: LLM·VLM·오디오 모델 전 규모 지원
SpecExit: 추론 조기 종료 알고리즘

기타 기법

Stem: 희소 어텐션 (Sparse Attention)

지원 모델

Hunyuan Dense/MoE, Qwen3/2.5, Qwen3-VL, DeepSeek-R1/V3, GLM-4.6, Kimi-K2
HunyuanOCR, Qwen2.5-VL, Hunyuan-VL (VLM)
Hunyuan-MT (번역 모델)
FLUX (확산 모델)

설치 및 사용

pip install angelslim

공식 문서에서 모델별 설정 파일과 상세 가이드를 제공한다.

자체 연구 알고리즘

DAQ (2026.03): 사후 학습 중 파라미터 업데이트를 최소화하면서 지식을 보존하는 양자화 (arXiv:2603.22324)
Sherry (2026.01): 하드웨어 효율적인 1.25비트 양자화 (arXiv:2601.07892)
TEQUILA (2025.09): 3진 양자화 알고리즘 (arXiv:2509.23809)

활용 대상

텐센트 자체 모델(Hunyuan, Hy-MT 등)을 온디바이스 또는 엣지 환경에 배포하는 팀
단일 GPU로 초대형 MoE 모델을 양자화해야 하는 연구자·엔지니어
투기적 디코딩과 양자화를 함께 적용하려는 LLM 서빙 팀

Like?

AI Sparkup