DeepSeek Sparse Attention(DSA)은 장문 컨텍스트에서 모든 과거 토큰을 보는 대신, 경량 인덱서와 선택기가 중요한 토큰을 고르는 희소 어텐션 기법이다. sliding-window attention처럼 고정된 최근 토큰만 보는 방식과 달리, 입력에 따라 볼 토큰을 동적으로 선택한다.
핵심 아이디어
일반 causal attention은 토큰이 길어질수록 계산량이 크게 증가한다. 고정 sparse pattern은 비용을 줄이지만, 멀리 있는 중요한 토큰을 놓칠 수 있다. DSA는 작은 인덱서가 과거 토큰 후보를 평가하고, selector가 실제로 attend할 토큰을 고른다.
current token
-> lightweight indexer
-> select important previous tokens
-> sparse attention over selected tokens구현 참고
Sebastian Raschka의 LLMs-from-scratch 저장소에는 DSA를 GPT 스타일 reference implementation으로 구현한 예제가 추가됐다. README, gpt_with_kv_dsa.py, 테스트 파일이 함께 있어 개념 학습용으로 적합하다.
GLM-5.2와의 연결
glm-5-2는 DSA 계열 장문 어텐션을 쓰면서 IndexShare를 적용한다. 각 sparse attention layer가 매번 인덱서를 계산하지 않고, 여러 레이어가 선택된 token index를 공유해 1M 컨텍스트 추론 비용을 줄인다.
사용 대상
- 장문 컨텍스트 LLM 아키텍처를 공부하는 연구자
- sliding-window, full attention, learned sparse attention의 차이를 구현 수준에서 보고 싶은 개발자
- 추론 비용과 recall 품질의 trade-off를 분석하는 모델 서빙 팀
관련 문서
- glm-5-2 — IndexShare로 DSA 비용을 줄인 오픈 가중치 모델
- inference-caching — LLM 추론 비용 절감 전략
- speculative-kv-coding — KV 캐시와 코딩 모델 추론 최적화
참고 자료
- DeepSeek Sparse Attention From Scratch — Sebastian Raschka (2026-05-23)