KV 캐시 압축(KV cache compression)은 LLM이 긴 대화와 대형 문맥을 같은 GPU 메모리 안에서 처리하도록 만든 핵심 최적화 계열이다. MQA, GQA, MLA, KV 양자화, 선형 어텐션 하이브리드는 모두 토큰마다 저장해야 하는 key/value 상태를 줄여 긴 컨텍스트와 에이전트 워크플로를 가능하게 했다.
왜 KV 캐시가 병목인가
자동회귀 LLM은 이전 토큰의 key/value 벡터를 캐시에 저장해 다음 토큰 생성 때 재사용한다. 이 덕분에 매 스텝마다 전체 프롬프트를 다시 계산하지 않아도 되지만, 컨텍스트가 길어질수록 KV 캐시 메모리는 선형으로 증가한다.
70B급 dense 모델이 멀티헤드 어텐션(MHA)을 16비트로 그대로 쓴다고 가정하면, 긴 컨텍스트 하나가 수십~수백 GB의 GPU 메모리를 요구할 수 있다. 모델 가중치보다 KV 캐시가 서빙 병목이 되는 이유다.
발전 흐름
| 시기 | 기법 | 핵심 아이디어 | 효과 |
|---|---|---|---|
| 2019 | MQA | 모든 query head가 하나의 KV head 공유 | 큰 압축, 품질 손실 위험 |
| 2023 | GQA | query head 그룹별로 KV head 공유 | 품질 손실을 줄인 표준 절충안 |
| 2023 | Sliding Window Attention | 일부 레이어가 최근 토큰만 attend | 캐시 증가 상한 완화 |
| 2024 | MLA | K/V를 작은 latent vector로 압축 | DeepSeek 계열의 큰 캐시 절감 |
| 2024~ | KV 양자화 | K/V를 INT8·INT4 등 저정밀도로 저장 | 2~4배 메모리 절감 |
| 2025~ | 선형 어텐션 하이브리드 | 일부 레이어를 고정 크기 상태로 대체 | 1M급 컨텍스트 확장의 기반 |
MQA와 GQA
초기 멀티헤드 어텐션은 각 query head마다 별도 key/value head를 둔다. MQA(Multi-Query Attention)는 KV head를 하나로 공유해 캐시를 크게 줄인다. 하지만 압축이 강해 long recall과 품질이 떨어질 수 있다.
GQA(Grouped-Query Attention)는 중간 지점이다. 여러 query head가 하나의 KV head 그룹을 공유한다. Llama 2 70B, Mistral 등 많은 오픈 모델이 이 방식을 채택했고, 이후 장문 컨텍스트 모델의 기본 설계가 됐다.
MLA와 DeepSeek의 전환점
MLA(Multi-head Latent Attention)는 key/value를 직접 캐시하지 않고 더 작은 latent 표현으로 압축한다. DeepSeek V2 계열은 이 접근으로 KV 캐시 크기를 크게 줄였고, 단순한 비용 절감이 아니라 장문 컨텍스트와 고동시성 서빙의 구조적 이점을 보여줬다.
MQA가 “품질을 일부 포기하고 크게 줄인다”에 가까웠다면, MLA는 “모델 아키텍처를 바꿔 캐시 자체를 작게 만든다”에 가깝다.
선형 어텐션 하이브리드와 1M 컨텍스트
2025년 이후에는 모든 레이어가 full attention을 유지할 필요가 없다는 방향이 강해졌다. Qwen3-Next, Kimi Linear 같은 하이브리드 모델은 일부 레이어를 선형 어텐션이나 recurrent 상태로 대체해 고정 크기 상태를 유지한다.
이 흐름은 128K~200K에서 정체되던 컨텍스트 창을 1M 토큰 수준으로 밀어 올린 주요 원인 중 하나다. 에이전트가 대규모 코드베이스, 긴 로그, 여러 문서를 한 세션에서 다루려면 모델 품질뿐 아니라 이런 캐시 효율이 필요하다.
실무 관점
- 긴 컨텍스트 가격과 속도는 모델 크기만으로 설명되지 않는다. KV 캐시 구조가 중요하다.
- 같은 1M 컨텍스트라도 full attention, GQA, MLA, linear hybrid는 메모리 비용이 다르다.
- 서빙 스택의 PagedAttention은 캐시를 “관리”하는 기법이고, GQA·MLA·양자화는 캐시를 “줄이는” 기법이다.
- 에이전트 제품은 컨텍스트 길이보다 compaction 빈도, 동시 세션 수, TTFT를 함께 봐야 한다.
관련 문서
- kv-caching — KV 캐싱의 기본 원리와 TTFT·메모리 트레이드오프
- turboquant — KV 캐시·임베딩 극저비트 압축
- speculative-kv-coding — 예측 모델과 엔트로피 코딩으로 KV 캐시를 무손실 압축하는 기법
- llm-architecture-tips-long-context-cost — 장문 컨텍스트 비용을 줄이는 아키텍처 기법
참고 자료
- A brief history of KV cache compression developments — Martin Alderson (2026-06-15)