vLLM Recipes – 하드웨어별·모델별 vLLM 실행 레시피 커뮤니티 모음

vLLM Recipes는 “모델 X를 하드웨어 Y에서 작업 Z에 어떻게 실행하는가?”라는 실용 질문에 답하는 커뮤니티 관리 레시피 저장소다. vLLM 공식 프로젝트 산하에서 운영되며, 각 주요 모델 제공사·하드웨어 조합에 대한 마크다운 가이드를 모아 둔다.

커버하는 모델

2026년 4월 기준 다음 제공사의 레시피가 포함되어 있다:

제공사	주요 모델 예시
DeepSeek	DeepSeek-V3, DeepSeek-R1, DeepSeek-OCR
Meta Llama	Llama 4 Scout, Llama 3.3-70B, Llama 3.1
Qwen (Alibaba)	Qwen3 시리즈
Google	Gemma 4
Mistral AI	Mistral-Large-3, Ministral-3
MiniMax	MiniMax-M2 시리즈
Moonshotai	Kimi-K2, Kimi-K2.5, Kimi-K2-Think
Microsoft	Phi-4
NVIDIA	Nemotron 시리즈
OpenAI	gpt-oss
GLM	GLM-4.x, GLM-5
InternVL	InternVL3.5
Jina AI	Jina-reranker-m0

각 레시피는 마크다운 파일로 제공되며, 설치 명령어·서빙 파라미터·하드웨어 요구사항이 포함된다. 저장소 구조는 <제공사>/<모델명>.md 형식이다.

vllm-project/recipes/
├── DeepSeek/DeepSeek-V3.md
├── Llama/Llama4-Scout.md
├── Qwen/Qwen3.md
└── Google/Gemma4.md

레시피를 찾을 때는 저장소의 README에서 제공사 목록을 탐색하거나, 파일명으로 직접 검색한다.

vLLM은 PagedAttention 기반의 고성능 LLM 추론·서빙 엔진이다. Recipes는 vLLM 엔진 자체의 문서가 아니라, 커뮤니티가 특정 모델을 실제로 실행해 본 결과를 정리한 참고서다. 공식 vLLM 문서와 함께 사용하면 효과적이다.