LLM 아키텍처 팁 – KV Sharing·mHC·Compressed Attention으로 장문 컨텍스트 비용 줄이기

장문 컨텍스트와 에이전트 워크플로가 늘어나면서 LLM의 병목은 단순 파라미터 수보다 KV 캐시 크기, 메모리 트래픽, 어텐션 계산량으로 이동하고 있다. 최근 오픈 가중치 모델들은 이 비용을 줄이기 위해 transformer block 안쪽 구조를 바꾸고 있다.

최근 설계 흐름

기법	대표 모델	핵심 아이디어
KV sharing / cross-layer attention	Gemma 4 E2B/E4B	후반 레이어가 이전 레이어의 K·V 텐서를 재사용해 캐시 크기를 줄인다
Per-layer embeddings	Gemma 4 E2B/E4B	transformer stack은 작게 유지하고, 레이어별 토큰 임베딩으로 표현력을 보강한다
Layer-wise attention budgeting	Laguna XS.2	레이어마다 query head 수와 attention budget을 다르게 배분한다
Compressed Convolutional Attention	ZAYA1-8B	Q·K·V를 압축 latent 공간에서 직접 attention하고 convolution으로 지역 문맥을 보강한다
mHC / compressed attention	DeepSeek V4	장문 추론 비용을 줄이기 위한 하이브리드 압축 attention 계열 설계

kv-caching은 생성 속도를 높이지만, 긴 컨텍스트에서는 모든 레이어와 토큰의 K·V를 저장해야 한다. 컨텍스트 길이가 늘면 캐시도 선형으로 커지고, 동시 요청이 많아지면 모델 가중치보다 캐시가 더 큰 병목이 된다.

최근 모델들은 이 문제를 세 방향에서 푼다.

새 모델을 평가할 때 파라미터 수와 벤치마크 점수만 보면 장문 비용을 놓친다. 다음 정보를 함께 확인해야 한다.