Speculative KV Coding – 예측 모델로 KV 캐시를 최대 4배 무손실 압축하는 기법

핵심 아이디어: KV 캐시는 완전히 예측 가능하다
파이프라인
예측 모델 선택
혼합 분포(mixture distribution)
초기 결과
FP8 KV 캐시와 결합
활용 시나리오
향후 방향
참고 자료
관련 문서

Speculative KV Coding은 작은 예측 모델(predictor model)과 엔트로피 코딩(entropy coding)을 결합해 LLM의 KV 캐시를 무손실로 최대 4배 압축하는 기법이다. Fergus Finn이 2026년 5월 블로그에 공개한 연구로, 기존 KV 캐시 양자화(lossy)와 달리 정보 손실이 전혀 없다는 점이 핵심이다.

핵심 아이디어: KV 캐시는 완전히 예측 가능하다

엔트로피 코딩(arithmetic coding 등)의 기본 원리는 모델 분포 q가 실제 분포 p에 가까울수록 비트 수가 줄어든다는 것이다. 비트레이트는 다음과 같이 표현된다:

H(p, q) = H(p) + KL(p ∥ q)

KV 캐시는 주어진 프롬프트와 가중치에 대해 완전히 결정적(deterministic)이다. 즉, 진짜 분포 p는 하나의 텐서 값에 집중된 델타 분포이고 엔트로피 H(p) = 0이다. 이론적으로는 비트가 0개여야 하지만, 현실에서는 KV 캐시를 그대로 전송하면 BF16 기준 16비트/스칼라를 써야 한다.

해법은 “KV 캐시를 잘 예측하는 모델 q를 찾아 KL divergence를 줄이는 것”이다.

파이프라인

ENCODE                          DECODE
prompt ─┬─► target model        prompt ─────────────► predictor
        └─► predictor ─► (μ,σ) ──┼─►  (μ,σ)
              KV_full ──────────►│        bits ──────► KV_full
                            arithmetic coder
                            emits bits

양쪽(인코더/디코더)이 동일한 predictor로 (μ, σ)를 독립적으로 재현
인코더는 target model의 KV_full과 (μ, σ)를 arithmetic coder에 넣어 비트스트림 생성
디코더는 비트스트림과 (μ, σ)만으로 KV_full을 완벽하게 복원

프롬프트 자체는 KV 캐시 대비 무시할 만큼 작아 별도 전송해도 무관하다.

예측 모델 선택

예측 모델의 선택은 압축률 vs. 계산 비용의 트레이드오프다:

예측 모델	결과
target model 자체	비트 0 (하지만 forward pass 2배 비용)
FP8 버전의 target model	실용적인 압축률 달성 (권장)
더 작은 모델 (같은 계열)	약간 낮은 압축률, 더 빠름
랜덤 노이즈	압축 없음 (~16비트/스칼라)

실험에서는 FP8 버전을 μ로, 학습 데이터로 캘리브레이션한 per-(kv, head, channel) 분산을 σ²로 사용했다.

혼합 분포(mixture distribution)

KV 잔차(KV_full – KV_quant)의 분포는 순수 가우시안이 아닌 장꼬리(long-tailed) 분포다. 이를 처리하기 위해 3-성분 혼합 분포를 사용한다:

q(x) = 0.95 N(x; μ, σ²) + 0.03 N(x; μ, (3σ)²) + 0.02 p̂_bf16(x)

좁은 가우시안: 일반 값 처리
넓은 가우시안: 중간 규모 오차 처리
경험적 BF16 분포: 극단적 아웃라이어 처리 (~11비트)

초기 결과

Qwen3 모델군, C4 검증 셋 기준 (BF16 기준 16비트/스칼라 대비):

target	비트/스칼라	압축률
Qwen3-0.6B	6.74	2.37×
Qwen3-1.7B	6.53	2.45×
Qwen3-4B	6.33	2.53×
Qwen3-8B	6.18	2.59×
Qwen3-14B	6.01	2.66×
Qwen3-32B	5.92	2.70×

모델이 클수록 압축률이 높아진다 (0.6B→32B 구간 약 0.9비트/스칼라 감소).

FP8 KV 캐시와 결합

이미 FP8 양자화가 적용된 KV 캐시(vLLM, SGLang, TRT-LLM 등)에 Speculative KV Coding을 추가 적용하면 더 높은 압축률(~4×) 을 얻을 수 있다. FP8 심볼의 엔트로피 자체가 낮아 예측 모델의 효과가 배가되기 때문이다.

DeepSeek V4처럼 기본으로 FP8 KV 캐시를 사용하는 최신 모델에서 특히 유리하다.

활용 시나리오

KV 캐시 오프로딩: DRAM→VRAM 이동 시 대역폭 절감
분산 추론: 노드 간 KV 캐시 전송 비용 감소
장문 컨텍스트 처리: 긴 컨텍스트의 KV 캐시 메모리 사용량 감소
무손실 보장이 필요한 서비스: 양자화 오류 없는 정확한 재현 요구 시

향후 방향

더 좋은 residual 모델 탐색
더 작고 빠른 predictor 모델 설계
처리량 최적화 및 bit-identical predictor 엔지니어링

참고 자료

Speculative KV coding: losslessly compressing KV cache by up to ~4× — fergusfinn.com (2026-05-08)

AI Sparkup