AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AutoRound – Intel의 부호 경사 하강 기반 LLM/VLM 양자화 툴킷

AutoRound는 Intel이 개발한 LLM(대형 언어 모델) 및 VLM(비전-언어 모델)용 고급 양자화 툴킷이다. 부호 경사 하강(sign-gradient descent) 기법으로 2~4비트 초저비트폭에서도 높은 정확도를 달성하며, 최소한의 튜닝으로 광범위한 하드웨어 호환성을 제공한다.

GitHub: intel/auto-round | Apache 2.0 | Python 3.10+

주요 특징

  • 우수한 정확도: 2~3비트에서도 강력한 성능, 4비트 벤치마크 리더보드 선두
  • 생태계 통합: Transformers, vLLM, SGLang과 원활하게 연동
  • 다양한 포맷 내보내기: AutoRound, AutoAWQ, AutoGPTQ, GGUF 지원
  • 빠른 혼합 비트/자료형 스킴 생성: 분 단위로 혼합 정밀도 구성 자동 설정 (AutoScheme)
  • 최적화된 RTN 모드: --iters 0으로 빠른 양자화 (4비트 기준 약간의 정확도 손실)
  • 저렴한 양자화 비용: 단일 GPU에서 7B 모델 약 10분 처리
  • 10+ VLM 지원: 비전-언어 모델 즉시 양자화
  • 다중 GPU 양자화: 대형 모델을 여러 GPU에 분산 처리
  • 10+ 런타임 백엔드 지원: 다양한 추론 환경 호환

지원 양자화 방식

  • INT4 (GPTQ/AWQ/AutoRound)
  • INT2~3 (혼합 정밀도)
  • FP8 (블록 단위)
  • MXFP4, NVFP4
  • W8A8
  • GGUF

설치

# CPU(Xeon)/GPU(CUDA)
pip install auto-round

# 나이틀리 버전
pip install auto-round-nightly

# HPU(Gaudi)
pip install auto-round-hpu

# XPU(Intel GPU)
pip install torch --index-url https://download.pytorch.org/whl/xpu
pip install auto-round

사용법

from auto_round import AutoRound

model_name = "Qwen/Qwen2.5-7B-Instruct"
autoround = AutoRound(model, tokenizer, bits=4, group_size=128)
autoround.quantize()
autoround.save_quantized(output_dir, format="auto_gptq", inplace=True)

에코시스템 통합

2025년부터 여러 주요 프레임워크에 통합됐다:

  • vLLM (2025.05): 공식 문서
  • SGLang (2025.10): 공식 문서
  • LLM-Compressor (2025.11): vLLM 프로젝트 통합
  • Transformers (2025.05): HuggingFace 블로그 소개

활용 대상

  • LLM/VLM을 엣지 디바이스나 메모리 제한 환경에 배포하는 MLOps 엔지니어
  • 모델 품질을 유지하면서 서빙 비용을 줄이려는 AI 팀
  • 다양한 양자화 포맷 간 호환성이 필요한 연구자

라이선스

Apache 2.0



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)