AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Gemma 4부터 DeepSeek V4까지, 최신 LLM 아키텍처가 풀려는 하나의 문제

128K 토큰짜리 컨텍스트를 처리할 때, 최신 LLM은 KV 캐시만으로 수 기가바이트의 메모리를 잡아먹습니다. 추론 모델과 AI 에이전트가 점점 더 긴 대화와 문서를 다루는 지금, 이 숫자는 LLM 설계자들이 가장 먼저 마주치는 장벽이 됐습니다.

사진 출처: Sebastian Raschka, Ahead of AI

ML 연구자 Sebastian Raschka가 2025년 4~5월 공개된 주요 오픈웨이트 모델들의 아키텍처를 분석한 글을 발표했습니다. Gemma 4, Laguna XS.2, ZAYA1, DeepSeek V4가 서로 다른 방식으로 같은 문제를 공략하고 있다는 것이 핵심입니다. 그 문제는 바로 긴 컨텍스트에서의 메모리와 연산 비용입니다.

출처: Recent Developments in LLM Architectures: KV Sharing, mHC, and Compressed Attention – Sebastian Raschka, Ahead of AI

KV 캐시, 왜 이렇게 무거운가

LLM이 텍스트를 생성할 때, 이전 토큰들의 정보를 매번 재계산하지 않기 위해 “KV 캐시”라는 것을 저장해 둡니다. 키(Key)와 값(Value) 행렬을 미리 계산해 메모리에 쌓아두는 방식인데, 컨텍스트가 길어질수록 이 캐시가 기하급수적으로 커집니다.

추론 모델이나 에이전트처럼 수만 개의 토큰을 한 번에 다뤄야 하는 환경에서는 KV 캐시가 곧 연산 비용의 천장이 됩니다. 최근 LLM 아키텍처 설계의 핵심 화두가 바로 이 캐시를 얼마나 줄일 수 있느냐입니다.

Gemma 4, KV를 레이어 간에 공유하다

구글이 공개한 Gemma 4 E2B, E4B 모델은 “레이어 간 KV 공유(cross-layer attention)”를 도입했습니다. 원래 트랜스포머는 각 레이어가 자신만의 K, V 행렬을 독립적으로 계산합니다. 그런데 Gemma 4에서는 뒤쪽 레이어들이 앞선 레이어의 KV를 그대로 가져다 씁니다. 각 레이어는 여전히 자신만의 Q(쿼리)를 만들어 다른 어텐션 패턴을 형성할 수 있지만, 메모리를 많이 잡아먹는 KV 캐시는 공유하는 셈입니다.

구체적으로, Gemma 4 E2B는 총 35개 레이어 중 앞의 15개만 KV를 직접 계산하고 나머지 20개는 가장 가까운 앞 레이어의 KV를 재사용합니다. 이 방식으로 128K 컨텍스트 기준 약 2.7GB의 메모리를 아낄 수 있습니다. E4B 모델에서는 절감량이 약 6GB에 달합니다.

물론 완전한 공짜는 아닙니다. KV를 공유한다는 건 각 레이어가 가진 표현 용량이 줄어든다는 뜻이기도 합니다. 다만 관련 연구에 따르면 소형 모델에서는 그 영향이 미미하다고 합니다.

Laguna XS.2, 레이어마다 어텐션 예산을 다르게 배분

Poolside가 공개한 코딩 특화 모델 Laguna XS.2는 조금 다른 접근을 택했습니다. 바로 “레이어별 어텐션 예산(layer-wise attention budgeting)”입니다.

기존 트랜스포머는 모든 레이어에 동일한 어텐션 헤드 수를 할당합니다. Laguna XS.2는 여기에 의문을 제기합니다. 총 40개 레이어 중 30개는 512토큰 범위만 보는 슬라이딩 윈도우 어텐션을 쓰고, 10개만 전체 컨텍스트를 참조하는 글로벌 어텐션을 씁니다. 여기서 더 나아가, 레이어마다 쿼리 헤드의 수 자체를 다르게 설정했습니다. 중요한 레이어에 더 많은 어텐션 용량을 배분하고, 덜 중요한 레이어는 가볍게 처리하는 방식입니다.

슬라이딩 윈도우와 글로벌 어텐션을 섞는 패턴 자체는 새로운 게 아닙니다. Gemma 4도 쓰고 있습니다. Laguna XS.2가 한 발 더 나간 지점은 레이어별로 헤드 수까지 달리해 어텐션 비용을 더 세밀하게 조율했다는 데 있습니다.

DeepSeek V4, mHC로 학습 안정성을 잡다

DeepSeek V4는 기존 MLA(Multi-head Latent Attention) 아키텍처에서 한 단계 나아간 mHC(multi-head Compressed attention)를 도입했습니다. MLA는 KV를 압축된 잠재 벡터로 표현해 캐시 크기를 줄이는 방식인데, 학습 과정에서 불안정성이 나타나는 문제가 있었습니다.

mHC는 이 압축 방식을 유지하면서 학습 안정성을 크게 개선했습니다. 논문에 따르면 mHC를 적용하면 학습 과정의 손실 스파이크(loss spike)가 기존 대비 약 1,800배 감소했습니다. 압축으로 인한 효율성은 챙기면서 학습을 불안정하게 만들던 근본 원인을 구조적으로 해결한 것입니다.

이 흐름이 말하는 것

이번에 분석된 모델들이 공통적으로 보여주는 방향이 있습니다. “모든 레이어를 동등하게 대우하지 않는다”는 것입니다. KV를 공유하든, 어텐션 헤드 수를 레이어마다 달리하든, 잠재 공간으로 압축하든, 핵심은 같습니다. 비용이 많이 드는 연산을 꼭 필요한 곳에만 집중하고 나머지는 덜어내는 설계 철학입니다.

추론 모델과 AI 에이전트가 표준이 되는 시대에, 긴 컨텍스트를 다루는 비용을 구조적으로 줄이는 능력은 모델의 실용성을 결정짓는 핵심 요소가 됩니다. 이번 글에서 다룬 Gemma 4의 PLE(레이어별 임베딩), ZAYA1의 압축 합성곱 어텐션 등 추가적인 설계 혁신들은 원문에서 더 깊이 확인할 수 있습니다.


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다