AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

vLLM 튜토리얼 – Hugging Face Jobs에서 한 명령으로 OpenAI 호환 서버 띄우기

vllm을 직접 서버에 설치하지 않고도 Hugging Face Jobs를 사용하면 임시 GPU 작업으로 OpenAI 호환 추론 서버를 띄울 수 있다. 실험용 모델 서빙, 데모, 코딩 에이전트 백엔드 테스트에 적합하다.

기본 흐름

  1. Hugging Face CLI에 로그인한다.
  2. GPU가 붙은 Job으로 vllm serve를 실행한다.
  3. 공개 또는 토큰 보호 엔드포인트를 확인한다.
  4. OpenAI 호환 클라이언트의 base_url을 해당 엔드포인트로 바꾼다.
  5. 실험이 끝나면 Job을 종료한다.

언제 Jobs가 맞는가

Hugging Face Inference Endpoints는 지속 운영에 유리하고, Jobs는 짧은 실험에 유리하다. 모델 후보를 테스트하거나, 특정 벤치마크를 돌리거나, 하루짜리 내부 데모를 만들 때는 Jobs가 더 가볍다.

코딩 에이전트 백엔드로 쓰기

OpenAI 호환 API로 뜨기 때문에 Codex 호환 shim, LiteLLM, Continue, OpenCode류 도구와 연결하기 쉽다. 다만 장시간 에이전트 작업은 컨텍스트와 비용이 빠르게 커지므로, 토큰 제한과 종료 정책을 함께 설정해야 한다.

관련 문서

  • vllm — 고처리량 LLM 추론·서빙 엔진
  • vllm-recipes — 하드웨어별 vLLM 실행 레시피
  • self-hosted-llm — 자체 호스팅 LLM 운영의 한계와 해결책

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)