vLLM Recipes는 “모델 X를 하드웨어 Y에서 작업 Z에 어떻게 실행하는가?”라는 실용 질문에 답하는 커뮤니티 관리 레시피 저장소다. vLLM 공식 프로젝트 산하에서 운영되며, 각 주요 모델 제공사·하드웨어 조합에 대한 마크다운 가이드를 모아 둔다.
커버하는 모델
2026년 4월 기준 다음 제공사의 레시피가 포함되어 있다:
| 제공사 | 주요 모델 예시 |
|---|---|
| DeepSeek | DeepSeek-V3, DeepSeek-R1, DeepSeek-OCR |
| Meta Llama | Llama 4 Scout, Llama 3.3-70B, Llama 3.1 |
| Qwen (Alibaba) | Qwen3 시리즈 |
| Gemma 4 | |
| Mistral AI | Mistral-Large-3, Ministral-3 |
| MiniMax | MiniMax-M2 시리즈 |
| Moonshotai | Kimi-K2, Kimi-K2.5, Kimi-K2-Think |
| Microsoft | Phi-4 |
| NVIDIA | Nemotron 시리즈 |
| OpenAI | gpt-oss |
| GLM | GLM-4.x, GLM-5 |
| InternVL | InternVL3.5 |
| Jina AI | Jina-reranker-m0 |
활용 방법
각 레시피는 마크다운 파일로 제공되며, 설치 명령어·서빙 파라미터·하드웨어 요구사항이 포함된다. 저장소 구조는 <제공사>/<모델명>.md 형식이다.
vllm-project/recipes/
├── DeepSeek/DeepSeek-V3.md
├── Llama/Llama4-Scout.md
├── Qwen/Qwen3.md
└── Google/Gemma4.md레시피를 찾을 때는 저장소의 README에서 제공사 목록을 탐색하거나, 파일명으로 직접 검색한다.
vLLM과의 관계
vLLM은 PagedAttention 기반의 고성능 LLM 추론·서빙 엔진이다. Recipes는 vLLM 엔진 자체의 문서가 아니라, 커뮤니티가 특정 모델을 실제로 실행해 본 결과를 정리한 참고서다. 공식 vLLM 문서와 함께 사용하면 효과적이다.
활용 대상
- 특정 오픈소스 모델을 자체 인프라에서 서빙하려는 ML 엔지니어
- 하드웨어 요구사항과 최적 파라미터를 빠르게 확인하고 싶은 팀
- 커뮤니티에 자신의 하드웨어·모델 조합 경험을 기여하려는 연구자
관련 문서
참고 자료
- vllm-project/recipes — GitHub 공식 저장소