Mooncake는 Moonshot AI의 Kimi 서비스에 쓰이는 대규모 LLM 추론·학습 인프라 프로젝트다. 핵심은 prefill과 decode 클러스터를 분리하고, CPU·DRAM·SSD 같은 유휴 자원을 묶어 분산 KV 캐시 풀로 활용하는 KV cache-centric 아키텍처다.
구성 요소
| 구성 | 역할 |
|---|---|
| Transfer Engine | RDMA, TCP, NVLink, NVMe-oF 등 이기종 네트워크·가속기 간 고속 데이터 이동 |
| Mooncake Store | KV 캐시와 모델 가중치를 저장·공유하는 분산 캐시 저장소 |
| EP & PG | MoE 서빙과 병렬 그룹 관리를 위한 탄력적 구성 |
| vLLM/SGLang 통합 | 기존 LLM 서빙 엔진에서 KV 캐시 재사용과 PD 분리 추론 지원 |
Mooncake README는 실제 Kimi 워크로드에서 SLO를 지키면서 75% 더 많은 요청을 처리했다고 설명한다. 또한 vLLM, SGLang, TensorRT-LLM, vLLM-Ascend 등 여러 서빙 생태계에 연결돼 있다.
왜 중요한가
긴 컨텍스트와 멀티턴 에이전트 워크로드에서는 KV 캐시가 사실상 핵심 자산이다. 같은 프롬프트 prefix, 문서, 멀티모달 임베딩을 여러 요청에서 재사용할 수 있으면 GPU 계산을 크게 줄일 수 있다. Mooncake는 이 캐시를 단일 프로세스 최적화가 아니라 클러스터 자원으로 다룬다.
관련 문서
- vllm-tutorial-hf-jobs — Hugging Face Jobs에서 vLLM 서버 띄우기
- sglang-omni — 음성 출력 LLM과 옴니모달 모델 서빙
- dspark — 투기적 디코딩 기반 추론 최적화
참고 자료
- kvcache-ai/Mooncake — GitHub 공식 저장소