AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

LLM 아키텍처 팁 – KV Sharing·mHC·Compressed Attention으로 장문 컨텍스트 비용 줄이기

장문 컨텍스트와 에이전트 워크플로가 늘어나면서 LLM의 병목은 단순 파라미터 수보다 KV 캐시 크기, 메모리 트래픽, 어텐션 계산량으로 이동하고 있다. 최근 오픈 가중치 모델들은 이 비용을 줄이기 위해 transformer block 안쪽 구조를 바꾸고 있다.

최근 설계 흐름

기법대표 모델핵심 아이디어
KV sharing / cross-layer attentionGemma 4 E2B/E4B후반 레이어가 이전 레이어의 K·V 텐서를 재사용해 캐시 크기를 줄인다
Per-layer embeddingsGemma 4 E2B/E4Btransformer stack은 작게 유지하고, 레이어별 토큰 임베딩으로 표현력을 보강한다
Layer-wise attention budgetingLaguna XS.2레이어마다 query head 수와 attention budget을 다르게 배분한다
Compressed Convolutional AttentionZAYA1-8BQ·K·V를 압축 latent 공간에서 직접 attention하고 convolution으로 지역 문맥을 보강한다
mHC / compressed attentionDeepSeek V4장문 추론 비용을 줄이기 위한 하이브리드 압축 attention 계열 설계

왜 KV 캐시가 핵심인가

kv-caching은 생성 속도를 높이지만, 긴 컨텍스트에서는 모든 레이어와 토큰의 K·V를 저장해야 한다. 컨텍스트 길이가 늘면 캐시도 선형으로 커지고, 동시 요청이 많아지면 모델 가중치보다 캐시가 더 큰 병목이 된다.

최근 모델들은 이 문제를 세 방향에서 푼다.

  • 덜 저장한다: KV sharing, GQA/MQA, MLA, 압축 캐시
  • 덜 본다: sliding window, sparse attention, global layer 비율 조정
  • 좁은 공간에서 계산한다: compressed attention, latent attention

실무적으로 볼 포인트

새 모델을 평가할 때 파라미터 수와 벤치마크 점수만 보면 장문 비용을 놓친다. 다음 정보를 함께 확인해야 한다.

  • 레이어 수와 KV head 수
  • sliding window와 full attention 레이어 비율
  • cross-layer KV sharing 여부
  • MLA/CCA 같은 latent attention 채택 여부
  • 128K 이상 컨텍스트에서의 KV cache 메모리 요구량
  • prefill과 decode 처리량을 나눠 공개하는지

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)