AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Shepherd Model Gateway – KV 캐시 인식 라우팅을 제공하는 Rust LLM 게이트웨이

여러 GPU 워커와 외부 모델 API를 함께 운영할 때 단순 라운드 로빈은 이미 계산된 접두어 캐시를 버리고 지연 시간과 비용을 키울 수 있다. Shepherd Model Gateway(SMG)는 LightSeek가 Rust로 개발한 고성능 모델 라우팅 게이트웨이로, SGLang·vLLM·TensorRT-LLM 같은 자체 호스팅 백엔드와 OpenAI·Anthropic·Gemini 등 클라우드 프로바이더를 단일 인터페이스로 연결한다.

핵심 차별점

영역SMG 기능
라우팅KV 캐시 인식, prefix hash, consistent hashing 등 8개 정책
호환 APIOpenAI Chat/Completions/Embeddings/Responses, Anthropic Messages
성능Rust 기반 gRPC 파이프라인과 스트리밍 처리
확장MCP 도구 실행, WebAssembly 플러그인
운영회로 차단기, 재시도, 다중 테넌트 속도 제한, OIDC
관찰성Prometheus 메트릭, OpenTelemetry 트레이싱, 구조화 로그

어디에 쓰는가

SMG는 단일 개발자용 프록시보다 모델 서빙 인프라 계층에 가깝다. 긴 시스템 프롬프트를 반복하는 에이전트 서비스, 여러 GPU 워커에서 같은 대화 접두어를 처리하는 환경, 모델 프로바이더를 변경해도 클라이언트 API를 유지해야 하는 플랫폼 팀에 유용하다.

pip install smg
smg launch --worker-urls http://gpu1:8000 http://gpu2:8000 --policy cache_aware

이후 클라이언트는 OpenAI 호환 엔드포인트로 요청을 보내고, 게이트웨이가 워커와 정책을 결정한다.

선택 시 고려할 점

  • 캐시 인식 라우팅 효과는 반복 접두어와 워커 캐시 상태가 실제로 존재할 때 커진다.
  • MCP 실행과 대화 이력 저장을 함께 켜면 게이트웨이가 보안 경계가 되므로 인증·감사·데이터 보존 정책이 필수다.
  • 자체 GPU 워커를 운용하지 않는 소규모 앱은 더 단순한 API 프록시가 운영 부담이 낮을 수 있다.

라이선스 및 관련 문서

  • 라이선스: Apache-2.0
  • agent-gateway — 에이전트 호출 체인을 제어하는 게이트웨이 개념
  • litellm — 다수 LLM을 OpenAI 형식으로 통합 호출하는 게이트웨이
  • tokenspeed — LightSeek의 에이전틱 워크로드 추론 엔진
  • inference-caching — KV 캐시와 입력 캐시 비용 절감 원리

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)