장문 컨텍스트와 에이전트 워크플로가 늘어나면서 LLM의 병목은 단순 파라미터 수보다 KV 캐시 크기, 메모리 트래픽, 어텐션 계산량으로 이동하고 있다. 최근 오픈 가중치 모델들은 이 비용을 줄이기 위해 transformer block 안쪽 구조를 바꾸고 있다.
최근 설계 흐름
| 기법 | 대표 모델 | 핵심 아이디어 |
|---|---|---|
| KV sharing / cross-layer attention | Gemma 4 E2B/E4B | 후반 레이어가 이전 레이어의 K·V 텐서를 재사용해 캐시 크기를 줄인다 |
| Per-layer embeddings | Gemma 4 E2B/E4B | transformer stack은 작게 유지하고, 레이어별 토큰 임베딩으로 표현력을 보강한다 |
| Layer-wise attention budgeting | Laguna XS.2 | 레이어마다 query head 수와 attention budget을 다르게 배분한다 |
| Compressed Convolutional Attention | ZAYA1-8B | Q·K·V를 압축 latent 공간에서 직접 attention하고 convolution으로 지역 문맥을 보강한다 |
| mHC / compressed attention | DeepSeek V4 | 장문 추론 비용을 줄이기 위한 하이브리드 압축 attention 계열 설계 |
왜 KV 캐시가 핵심인가
kv-caching은 생성 속도를 높이지만, 긴 컨텍스트에서는 모든 레이어와 토큰의 K·V를 저장해야 한다. 컨텍스트 길이가 늘면 캐시도 선형으로 커지고, 동시 요청이 많아지면 모델 가중치보다 캐시가 더 큰 병목이 된다.
최근 모델들은 이 문제를 세 방향에서 푼다.
- 덜 저장한다: KV sharing, GQA/MQA, MLA, 압축 캐시
- 덜 본다: sliding window, sparse attention, global layer 비율 조정
- 좁은 공간에서 계산한다: compressed attention, latent attention
실무적으로 볼 포인트
새 모델을 평가할 때 파라미터 수와 벤치마크 점수만 보면 장문 비용을 놓친다. 다음 정보를 함께 확인해야 한다.
- 레이어 수와 KV head 수
- sliding window와 full attention 레이어 비율
- cross-layer KV sharing 여부
- MLA/CCA 같은 latent attention 채택 여부
- 128K 이상 컨텍스트에서의 KV cache 메모리 요구량
- prefill과 decode 처리량을 나눠 공개하는지
관련 문서
- kv-caching — KV 캐싱 원리
- llm-inference — LLM 추론 과정
- deepseek-v4 — mHC와 압축 attention 계열 설계
- gemma — Google Gemma 모델 계열
- turboquant — KV 캐시 압축 양자화
참고 자료
- Recent Developments in LLM Architectures: KV Sharing, mHC, and Compressed Attention — Sebastian Raschka (2026-05-16)