Together.ai의 전용 컨테이너 추론(Dedicated Container Inference, DCI)과 Goose CLI 에이전트를 조합하면, HuggingFace에 공개된 어떤 모델이든 한 문장 프롬프트로 프로덕션급 GPU 환경에 배포할 수 있다. 추론 서버 설정, 컨테이너 구성, 모델별 환경 세팅 등 사전 지식이 없어도 에이전트가 이를 대신 처리한다. 이 튜토리얼은 Netflix의 void-model을 실제 배포한 사례를 기반으로 전체 워크플로를 설명한다.
사전 준비
- Together.ai 계정 및 API 키: together.ai에서 계정 생성 후 API 키 발급
- Goose CLI 설치: Goose는 AI 에이전트 작업을 자동화하는 CLI 러너다 “
bash # Goose 공식 설치 방법은 https://goose-docs.ai 참조“ - Node.js:
npx명령어 실행을 위해 필요 - 환경 변수 설정: “
bash export TOGETHER_API_KEY=<your_together_api_key>“
HuggingFace 모델 배포하기
1단계: Together 전용 컨테이너 스킬 설치
Goose에 Together.ai DCI 관련 지식(컨테이너 스펙, 추론 서버 설정 방법 등)을 주입하는 스킬을 설치한다.
npx skills add togethercomputer/skills이 명령 하나로 together-dedicated-containers 스킬이 설치된다. 에이전트가 Together 인프라에 맞게 컨테이너를 구성하는 방법을 알게 된다.
2단계: Goose 세션 시작 후 프롬프트 한 줄 입력
goose session start세션 안에서 배포하고 싶은 HuggingFace 모델 URL을 포함한 문장을 입력한다:
I want to deploy this model on togethers dedicated containers https://huggingface.co/netflix/void-model이것이 전부다. 더 이상의 입력은 필요 없다.
3단계: 에이전트 작업 완료 대기
에이전트가 다음을 자동으로 처리한다:
- HuggingFace에서 모델 상세 정보 수집
- 모델 아키텍처에 맞는 추론 서버 설정 파악
- 컨테이너 구성 파일 생성
- 실행 가능한 완전한 배포 레포지토리 생성
결과물 예시: blainekasten/together-void-model-container
사전 지식 없이도 에이전트가 모델별 최적 설정을 파악해 바로 실행 가능한 상태로 만들어준다.
추론 실행하기
모델 배포가 완료되면 Together CLI로 추론을 바로 테스트할 수 있다.
동기식 추론 (텍스트 모델)
OpenAI 호환 엔드포인트를 사용하는 경우:
from openai import OpenAI
client = OpenAI(
api_key="<TOGETHER_API_KEY>",
base_url="https://api.together.xyz/v1",
)
response = client.chat.completions.create(
model="<your-deployed-model-name>",
messages=[{"role": "user", "content": "Hello!"}],
)
print(response.choices[0].message.content)비동기식 추론 (멀티미디어·특수 모델)
void-model처럼 비디오 처리 등 비동기 작업이 필요한 모델은 Together CLI의 jig 명령어를 사용한다:
tg beta jig submit --watch --payload '{
"video_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/input_video.mp4",
"quadmask_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/quadmask_0.mp4",
"prompt": "Empty park bench with fallen leaves on the ground",
"use_pass2": false
}'제출하면 다음과 같은 응답이 반환된다:
{
"model": "void-byoc",
"request_id": "019dc0f3-3c73-7a3f-b4b6-87ad06091180",
"status": "running",
"created_at": "2026-04-24T19:24:19.444567Z",
"done_at": null,
"outputs": null
}추론이 완료되면 outputs에 결과물 URL이 포함된다. 결과 파일은 cURL로 다운로드한다:
curl -L -O \
https://api.together.ai/v1/storage/<request_id>-result.mp4 \
--header "Authorization: Bearer $TOGETHER_API_KEY"-L 플래그는 스토리지 URL의 HTTP 리다이렉트를 따르기 위해 필요하며, -O는 로컬 파일로 저장한다.
활용 시나리오
신규 모델 즉시 테스트
연구소나 기업에서 새 모델을 HuggingFace에 공개하는 날, 즉시 프로덕션급 환경에서 평가할 수 있다. 자체 GPU VM 구성이나 추론 서버 설치를 기다릴 필요가 없다.
적합한 대상: AI 연구자, ML 엔지니어, 새 모델을 빠르게 벤치마킹해야 하는 팀
특수 도메인 모델 운영
사이버 보안(cybersecqwen-4b), 의료, 법률 등 특화 도메인의 오픈소스 모델을 Together 관리형 인프라에서 안정적으로 운영할 수 있다. 자체 인프라 없이도 전용 GPU 환경을 유지한다.
적합한 대상: 도메인 특화 AI 서비스를 구축하는 스타트업, 엔터프라이즈 팀
멀티미디어 AI 파이프라인
비디오 인페인팅(inpainting), 이미지 생성 등 GPU 집약적인 멀티미디어 모델을 비동기 배치로 처리하는 파이프라인 구성에 유리하다.
적합한 대상: 크리에이티브 툴 개발사, 미디어·엔터테인먼트 업계
비용 최적화 실험
서버리스 엔드포인트와 전용 컨테이너를 조합해 트래픽 패턴에 따라 비용을 최적화할 수 있다. 배치 추론 API를 활용하면 대규모 처리 비용을 최대 50% 절감할 수 있다.
적합한 대상: 대규모 AI 파이프라인을 운영하면서 비용 효율을 추구하는 팀
참고 자료
- Deploy and inference any model from HuggingFace — Together.ai Blog (2026-05-10)
- Together Dedicated Containers Skill — GitHub 공식 저장소
- Together.ai CLI 문서 — Together.ai 공식 문서