AutoRound – Intel의 부호 경사 하강 기반 LLM/VLM 양자화 툴킷

주요 특징
지원 양자화 방식
설치
사용법
에코시스템 통합
활용 대상
라이선스

AutoRound는 Intel이 개발한 LLM(대형 언어 모델) 및 VLM(비전-언어 모델)용 고급 양자화 툴킷이다. 부호 경사 하강(sign-gradient descent) 기법으로 2~4비트 초저비트폭에서도 높은 정확도를 달성하며, 최소한의 튜닝으로 광범위한 하드웨어 호환성을 제공한다.

GitHub: intel/auto-round | Apache 2.0 | Python 3.10+

주요 특징

우수한 정확도: 2~3비트에서도 강력한 성능, 4비트 벤치마크 리더보드 선두
생태계 통합: Transformers, vLLM, SGLang과 원활하게 연동
다양한 포맷 내보내기: AutoRound, AutoAWQ, AutoGPTQ, GGUF 지원
빠른 혼합 비트/자료형 스킴 생성: 분 단위로 혼합 정밀도 구성 자동 설정 (AutoScheme)
최적화된 RTN 모드: --iters 0으로 빠른 양자화 (4비트 기준 약간의 정확도 손실)
저렴한 양자화 비용: 단일 GPU에서 7B 모델 약 10분 처리
10+ VLM 지원: 비전-언어 모델 즉시 양자화
다중 GPU 양자화: 대형 모델을 여러 GPU에 분산 처리
10+ 런타임 백엔드 지원: 다양한 추론 환경 호환

지원 양자화 방식

INT4 (GPTQ/AWQ/AutoRound)
INT2~3 (혼합 정밀도)
FP8 (블록 단위)
MXFP4, NVFP4
W8A8
GGUF

설치

# CPU(Xeon)/GPU(CUDA)
pip install auto-round

# 나이틀리 버전
pip install auto-round-nightly

# HPU(Gaudi)
pip install auto-round-hpu

# XPU(Intel GPU)
pip install torch --index-url https://download.pytorch.org/whl/xpu
pip install auto-round

사용법

from auto_round import AutoRound

model_name = "Qwen/Qwen2.5-7B-Instruct"
autoround = AutoRound(model, tokenizer, bits=4, group_size=128)
autoround.quantize()
autoround.save_quantized(output_dir, format="auto_gptq", inplace=True)

에코시스템 통합

2025년부터 여러 주요 프레임워크에 통합됐다:

vLLM (2025.05): 공식 문서
SGLang (2025.10): 공식 문서
LLM-Compressor (2025.11): vLLM 프로젝트 통합
Transformers (2025.05): HuggingFace 블로그 소개

활용 대상

LLM/VLM을 엣지 디바이스나 메모리 제한 환경에 배포하는 MLOps 엔지니어
모델 품질을 유지하면서 서빙 비용을 줄이려는 AI 팀
다양한 양자화 포맷 간 호환성이 필요한 연구자

라이선스

Apache 2.0

Like?

AI Sparkup