vllm을 직접 서버에 설치하지 않고도 Hugging Face Jobs를 사용하면 임시 GPU 작업으로 OpenAI 호환 추론 서버를 띄울 수 있다. 실험용 모델 서빙, 데모, 코딩 에이전트 백엔드 테스트에 적합하다.
기본 흐름
- Hugging Face CLI에 로그인한다.
- GPU가 붙은 Job으로
vllm serve를 실행한다. - 공개 또는 토큰 보호 엔드포인트를 확인한다.
- OpenAI 호환 클라이언트의
base_url을 해당 엔드포인트로 바꾼다. - 실험이 끝나면 Job을 종료한다.
언제 Jobs가 맞는가
Hugging Face Inference Endpoints는 지속 운영에 유리하고, Jobs는 짧은 실험에 유리하다. 모델 후보를 테스트하거나, 특정 벤치마크를 돌리거나, 하루짜리 내부 데모를 만들 때는 Jobs가 더 가볍다.
코딩 에이전트 백엔드로 쓰기
OpenAI 호환 API로 뜨기 때문에 Codex 호환 shim, LiteLLM, Continue, OpenCode류 도구와 연결하기 쉽다. 다만 장시간 에이전트 작업은 컨텍스트와 비용이 빠르게 커지므로, 토큰 제한과 종료 정책을 함께 설정해야 한다.
관련 문서
- vllm — 고처리량 LLM 추론·서빙 엔진
- vllm-recipes — 하드웨어별 vLLM 실행 레시피
- self-hosted-llm — 자체 호스팅 LLM 운영의 한계와 해결책
참고 자료
- Run a vLLM Server on HF Jobs in One Command — Hugging Face Blog (2026-06-25)