AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

DeepSeek Sparse Attention – 고정 패턴 대신 학습된 인덱서로 장문 어텐션을 줄이는 기법

2026-06-19

목차

핵심 아이디어
구현 참고
GLM-5.2와의 연결
사용 대상
관련 문서
참고 자료

DeepSeek Sparse Attention(DSA)은 장문 컨텍스트에서 모든 과거 토큰을 보는 대신, 경량 인덱서와 선택기가 중요한 토큰을 고르는 희소 어텐션 기법이다. sliding-window attention처럼 고정된 최근 토큰만 보는 방식과 달리, 입력에 따라 볼 토큰을 동적으로 선택한다.

핵심 아이디어

일반 causal attention은 토큰이 길어질수록 계산량이 크게 증가한다. 고정 sparse pattern은 비용을 줄이지만, 멀리 있는 중요한 토큰을 놓칠 수 있다. DSA는 작은 인덱서가 과거 토큰 후보를 평가하고, selector가 실제로 attend할 토큰을 고른다.

current token
  -> lightweight indexer
  -> select important previous tokens
  -> sparse attention over selected tokens

구현 참고

Sebastian Raschka의 LLMs-from-scratch 저장소에는 DSA를 GPT 스타일 reference implementation으로 구현한 예제가 추가됐다. README, gpt_with_kv_dsa.py, 테스트 파일이 함께 있어 개념 학습용으로 적합하다.

GLM-5.2와의 연결

glm-5-2는 DSA 계열 장문 어텐션을 쓰면서 IndexShare를 적용한다. 각 sparse attention layer가 매번 인덱서를 계산하지 않고, 여러 레이어가 선택된 token index를 공유해 1M 컨텍스트 추론 비용을 줄인다.

사용 대상

장문 컨텍스트 LLM 아키텍처를 공부하는 연구자
sliding-window, full attention, learned sparse attention의 차이를 구현 수준에서 보고 싶은 개발자
추론 비용과 recall 품질의 trade-off를 분석하는 모델 서빙 팀

관련 문서

glm-5-2 — IndexShare로 DSA 비용을 줄인 오픈 가중치 모델
inference-caching — LLM 추론 비용 절감 전략
speculative-kv-coding — KV 캐시와 코딩 모델 추론 최적화

참고 자료

DeepSeek Sparse Attention From Scratch — Sebastian Raschka (2026-05-23)

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)