여러 GPU 워커와 외부 모델 API를 함께 운영할 때 단순 라운드 로빈은 이미 계산된 접두어 캐시를 버리고 지연 시간과 비용을 키울 수 있다. Shepherd Model Gateway(SMG)는 LightSeek가 Rust로 개발한 고성능 모델 라우팅 게이트웨이로, SGLang·vLLM·TensorRT-LLM 같은 자체 호스팅 백엔드와 OpenAI·Anthropic·Gemini 등 클라우드 프로바이더를 단일 인터페이스로 연결한다.
핵심 차별점
| 영역 | SMG 기능 |
|---|---|
| 라우팅 | KV 캐시 인식, prefix hash, consistent hashing 등 8개 정책 |
| 호환 API | OpenAI Chat/Completions/Embeddings/Responses, Anthropic Messages |
| 성능 | Rust 기반 gRPC 파이프라인과 스트리밍 처리 |
| 확장 | MCP 도구 실행, WebAssembly 플러그인 |
| 운영 | 회로 차단기, 재시도, 다중 테넌트 속도 제한, OIDC |
| 관찰성 | Prometheus 메트릭, OpenTelemetry 트레이싱, 구조화 로그 |
어디에 쓰는가
SMG는 단일 개발자용 프록시보다 모델 서빙 인프라 계층에 가깝다. 긴 시스템 프롬프트를 반복하는 에이전트 서비스, 여러 GPU 워커에서 같은 대화 접두어를 처리하는 환경, 모델 프로바이더를 변경해도 클라이언트 API를 유지해야 하는 플랫폼 팀에 유용하다.
pip install smg
smg launch --worker-urls http://gpu1:8000 http://gpu2:8000 --policy cache_aware이후 클라이언트는 OpenAI 호환 엔드포인트로 요청을 보내고, 게이트웨이가 워커와 정책을 결정한다.
선택 시 고려할 점
- 캐시 인식 라우팅 효과는 반복 접두어와 워커 캐시 상태가 실제로 존재할 때 커진다.
- MCP 실행과 대화 이력 저장을 함께 켜면 게이트웨이가 보안 경계가 되므로 인증·감사·데이터 보존 정책이 필수다.
- 자체 GPU 워커를 운용하지 않는 소규모 앱은 더 단순한 API 프록시가 운영 부담이 낮을 수 있다.
라이선스 및 관련 문서
- 라이선스: Apache-2.0
- agent-gateway — 에이전트 호출 체인을 제어하는 게이트웨이 개념
- litellm — 다수 LLM을 OpenAI 형식으로 통합 호출하는 게이트웨이
- tokenspeed — LightSeek의 에이전틱 워크로드 추론 엔진
- inference-caching — KV 캐시와 입력 캐시 비용 절감 원리
참고 자료
- lightseekorg/smg — GitHub 공식 저장소