AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Mooncake – KV 캐시 중심의 분산 LLM 서빙 플랫폼

2026-07-01

목차

구성 요소
왜 중요한가
관련 문서
참고 자료

Mooncake는 Moonshot AI의 Kimi 서비스에 쓰이는 대규모 LLM 추론·학습 인프라 프로젝트다. 핵심은 prefill과 decode 클러스터를 분리하고, CPU·DRAM·SSD 같은 유휴 자원을 묶어 분산 KV 캐시 풀로 활용하는 KV cache-centric 아키텍처다.

구성 요소

구성	역할
Transfer Engine	RDMA, TCP, NVLink, NVMe-oF 등 이기종 네트워크·가속기 간 고속 데이터 이동
Mooncake Store	KV 캐시와 모델 가중치를 저장·공유하는 분산 캐시 저장소
EP & PG	MoE 서빙과 병렬 그룹 관리를 위한 탄력적 구성
vLLM/SGLang 통합	기존 LLM 서빙 엔진에서 KV 캐시 재사용과 PD 분리 추론 지원

Mooncake README는 실제 Kimi 워크로드에서 SLO를 지키면서 75% 더 많은 요청을 처리했다고 설명한다. 또한 vLLM, SGLang, TensorRT-LLM, vLLM-Ascend 등 여러 서빙 생태계에 연결돼 있다.

왜 중요한가

긴 컨텍스트와 멀티턴 에이전트 워크로드에서는 KV 캐시가 사실상 핵심 자산이다. 같은 프롬프트 prefix, 문서, 멀티모달 임베딩을 여러 요청에서 재사용할 수 있으면 GPU 계산을 크게 줄일 수 있다. Mooncake는 이 캐시를 단일 프로세스 최적화가 아니라 클러스터 자원으로 다룬다.

관련 문서

vllm-tutorial-hf-jobs — Hugging Face Jobs에서 vLLM 서버 띄우기
sglang-omni — 음성 출력 LLM과 옴니모달 모델 서빙
dspark — 투기적 디코딩 기반 추론 최적화

참고 자료

kvcache-ai/Mooncake — GitHub 공식 저장소

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)