AutoRound는 Intel이 개발한 LLM(대형 언어 모델) 및 VLM(비전-언어 모델)용 고급 양자화 툴킷이다. 부호 경사 하강(sign-gradient descent) 기법으로 2~4비트 초저비트폭에서도 높은 정확도를 달성하며, 최소한의 튜닝으로 광범위한 하드웨어 호환성을 제공한다.
GitHub: intel/auto-round | Apache 2.0 | Python 3.10+
주요 특징
- 우수한 정확도: 2~3비트에서도 강력한 성능, 4비트 벤치마크 리더보드 선두
- 생태계 통합: Transformers, vLLM, SGLang과 원활하게 연동
- 다양한 포맷 내보내기: AutoRound, AutoAWQ, AutoGPTQ, GGUF 지원
- 빠른 혼합 비트/자료형 스킴 생성: 분 단위로 혼합 정밀도 구성 자동 설정 (AutoScheme)
- 최적화된 RTN 모드:
--iters 0으로 빠른 양자화 (4비트 기준 약간의 정확도 손실) - 저렴한 양자화 비용: 단일 GPU에서 7B 모델 약 10분 처리
- 10+ VLM 지원: 비전-언어 모델 즉시 양자화
- 다중 GPU 양자화: 대형 모델을 여러 GPU에 분산 처리
- 10+ 런타임 백엔드 지원: 다양한 추론 환경 호환
지원 양자화 방식
- INT4 (GPTQ/AWQ/AutoRound)
- INT2~3 (혼합 정밀도)
- FP8 (블록 단위)
- MXFP4, NVFP4
- W8A8
- GGUF
설치
# CPU(Xeon)/GPU(CUDA)
pip install auto-round
# 나이틀리 버전
pip install auto-round-nightly
# HPU(Gaudi)
pip install auto-round-hpu
# XPU(Intel GPU)
pip install torch --index-url https://download.pytorch.org/whl/xpu
pip install auto-round사용법
from auto_round import AutoRound
model_name = "Qwen/Qwen2.5-7B-Instruct"
autoround = AutoRound(model, tokenizer, bits=4, group_size=128)
autoround.quantize()
autoround.save_quantized(output_dir, format="auto_gptq", inplace=True)에코시스템 통합
2025년부터 여러 주요 프레임워크에 통합됐다:
- vLLM (2025.05): 공식 문서
- SGLang (2025.10): 공식 문서
- LLM-Compressor (2025.11): vLLM 프로젝트 통합
- Transformers (2025.05): HuggingFace 블로그 소개
활용 대상
- LLM/VLM을 엣지 디바이스나 메모리 제한 환경에 배포하는 MLOps 엔지니어
- 모델 품질을 유지하면서 서빙 비용을 줄이려는 AI 팀
- 다양한 양자화 포맷 간 호환성이 필요한 연구자
라이선스
Apache 2.0