Speculative KV Coding은 작은 예측 모델(predictor model)과 엔트로피 코딩(entropy coding)을 결합해 LLM의 KV 캐시를 무손실로 최대 4배 압축하는 기법이다. Fergus Finn이 2026년 5월 블로그에 공개한 연구로, 기존 KV 캐시 양자화(lossy)와 달리 정보 손실이 전혀 없다는 점이 핵심이다.
핵심 아이디어: KV 캐시는 완전히 예측 가능하다
엔트로피 코딩(arithmetic coding 등)의 기본 원리는 모델 분포 q가 실제 분포 p에 가까울수록 비트 수가 줄어든다는 것이다. 비트레이트는 다음과 같이 표현된다:
H(p, q) = H(p) + KL(p ∥ q)KV 캐시는 주어진 프롬프트와 가중치에 대해 완전히 결정적(deterministic)이다. 즉, 진짜 분포 p는 하나의 텐서 값에 집중된 델타 분포이고 엔트로피 H(p) = 0이다. 이론적으로는 비트가 0개여야 하지만, 현실에서는 KV 캐시를 그대로 전송하면 BF16 기준 16비트/스칼라를 써야 한다.
해법은 “KV 캐시를 잘 예측하는 모델 q를 찾아 KL divergence를 줄이는 것”이다.
파이프라인
ENCODE DECODE
prompt ─┬─► target model prompt ─────────────► predictor
└─► predictor ─► (μ,σ) ──┼─► (μ,σ)
KV_full ──────────►│ bits ──────► KV_full
arithmetic coder
emits bits- 양쪽(인코더/디코더)이 동일한 predictor로 (μ, σ)를 독립적으로 재현
- 인코더는 target model의 KV_full과 (μ, σ)를 arithmetic coder에 넣어 비트스트림 생성
- 디코더는 비트스트림과 (μ, σ)만으로 KV_full을 완벽하게 복원
프롬프트 자체는 KV 캐시 대비 무시할 만큼 작아 별도 전송해도 무관하다.
예측 모델 선택
예측 모델의 선택은 압축률 vs. 계산 비용의 트레이드오프다:
| 예측 모델 | 결과 |
|---|---|
| target model 자체 | 비트 0 (하지만 forward pass 2배 비용) |
| FP8 버전의 target model | 실용적인 압축률 달성 (권장) |
| 더 작은 모델 (같은 계열) | 약간 낮은 압축률, 더 빠름 |
| 랜덤 노이즈 | 압축 없음 (~16비트/스칼라) |
실험에서는 FP8 버전을 μ로, 학습 데이터로 캘리브레이션한 per-(kv, head, channel) 분산을 σ²로 사용했다.
혼합 분포(mixture distribution)
KV 잔차(KV_full – KV_quant)의 분포는 순수 가우시안이 아닌 장꼬리(long-tailed) 분포다. 이를 처리하기 위해 3-성분 혼합 분포를 사용한다:
q(x) = 0.95 N(x; μ, σ²) + 0.03 N(x; μ, (3σ)²) + 0.02 p̂_bf16(x)- 좁은 가우시안: 일반 값 처리
- 넓은 가우시안: 중간 규모 오차 처리
- 경험적 BF16 분포: 극단적 아웃라이어 처리 (~11비트)
초기 결과
Qwen3 모델군, C4 검증 셋 기준 (BF16 기준 16비트/스칼라 대비):
| target | 비트/스칼라 | 압축률 |
|---|---|---|
| Qwen3-0.6B | 6.74 | 2.37× |
| Qwen3-1.7B | 6.53 | 2.45× |
| Qwen3-4B | 6.33 | 2.53× |
| Qwen3-8B | 6.18 | 2.59× |
| Qwen3-14B | 6.01 | 2.66× |
| Qwen3-32B | 5.92 | 2.70× |
모델이 클수록 압축률이 높아진다 (0.6B→32B 구간 약 0.9비트/스칼라 감소).
FP8 KV 캐시와 결합
이미 FP8 양자화가 적용된 KV 캐시(vLLM, SGLang, TRT-LLM 등)에 Speculative KV Coding을 추가 적용하면 더 높은 압축률(~4×) 을 얻을 수 있다. FP8 심볼의 엔트로피 자체가 낮아 예측 모델의 효과가 배가되기 때문이다.
DeepSeek V4처럼 기본으로 FP8 KV 캐시를 사용하는 최신 모델에서 특히 유리하다.
활용 시나리오
- KV 캐시 오프로딩: DRAM→VRAM 이동 시 대역폭 절감
- 분산 추론: 노드 간 KV 캐시 전송 비용 감소
- 장문 컨텍스트 처리: 긴 컨텍스트의 KV 캐시 메모리 사용량 감소
- 무손실 보장이 필요한 서비스: 양자화 오류 없는 정확한 재현 요구 시
향후 방향
- 더 좋은 residual 모델 탐색
- 더 작고 빠른 predictor 모델 설계
- 처리량 최적화 및 bit-identical predictor 엔지니어링
참고 자료
- Speculative KV coding: losslessly compressing KV cache by up to ~4× — fergusfinn.com (2026-05-08)
관련 문서
- kv-caching — KV 캐싱 기본 개념
- kvarn — FP16 정확도를 유지하며 KV 캐시를 4배 확장하는 vLLM 양자화 백엔드
- turboquant — 손실 압축 방식의 KV 캐시 양자화 알고리즘
- llm-inference — LLM 추론 과정 전체 해설