Together.ai 튜토리얼 – HuggingFace 모든 모델을 Together.ai로 배포하고 추론하기

사전 준비
HuggingFace 모델 배포하기
1단계: Together 전용 컨테이너 스킬 설치
2단계: Goose 세션 시작 후 프롬프트 한 줄 입력
3단계: 에이전트 작업 완료 대기
추론 실행하기
동기식 추론 (텍스트 모델)
비동기식 추론 (멀티미디어·특수 모델)
활용 시나리오
신규 모델 즉시 테스트
특수 도메인 모델 운영
멀티미디어 AI 파이프라인
비용 최적화 실험
참고 자료

Together.ai의 전용 컨테이너 추론(Dedicated Container Inference, DCI)과 Goose CLI 에이전트를 조합하면, HuggingFace에 공개된 어떤 모델이든 한 문장 프롬프트로 프로덕션급 GPU 환경에 배포할 수 있다. 추론 서버 설정, 컨테이너 구성, 모델별 환경 세팅 등 사전 지식이 없어도 에이전트가 이를 대신 처리한다. 이 튜토리얼은 Netflix의 void-model을 실제 배포한 사례를 기반으로 전체 워크플로를 설명한다.

사전 준비

Together.ai 계정 및 API 키: together.ai에서 계정 생성 후 API 키 발급
Goose CLI 설치: Goose는 AI 에이전트 작업을 자동화하는 CLI 러너다 “bash # Goose 공식 설치 방법은 https://goose-docs.ai 참조 “
Node.js: npx 명령어 실행을 위해 필요
환경 변수 설정: “bash export TOGETHER_API_KEY=<your_together_api_key> “

HuggingFace 모델 배포하기

1단계: Together 전용 컨테이너 스킬 설치

Goose에 Together.ai DCI 관련 지식(컨테이너 스펙, 추론 서버 설정 방법 등)을 주입하는 스킬을 설치한다.

npx skills add togethercomputer/skills

이 명령 하나로 together-dedicated-containers 스킬이 설치된다. 에이전트가 Together 인프라에 맞게 컨테이너를 구성하는 방법을 알게 된다.

2단계: Goose 세션 시작 후 프롬프트 한 줄 입력

goose session start

세션 안에서 배포하고 싶은 HuggingFace 모델 URL을 포함한 문장을 입력한다:

I want to deploy this model on togethers dedicated containers https://huggingface.co/netflix/void-model

이것이 전부다. 더 이상의 입력은 필요 없다.

3단계: 에이전트 작업 완료 대기

에이전트가 다음을 자동으로 처리한다:

HuggingFace에서 모델 상세 정보 수집
모델 아키텍처에 맞는 추론 서버 설정 파악
컨테이너 구성 파일 생성
실행 가능한 완전한 배포 레포지토리 생성

결과물 예시: blainekasten/together-void-model-container

사전 지식 없이도 에이전트가 모델별 최적 설정을 파악해 바로 실행 가능한 상태로 만들어준다.

추론 실행하기

모델 배포가 완료되면 Together CLI로 추론을 바로 테스트할 수 있다.

동기식 추론 (텍스트 모델)

OpenAI 호환 엔드포인트를 사용하는 경우:

from openai import OpenAI

client = OpenAI(
    api_key="<TOGETHER_API_KEY>",
    base_url="https://api.together.xyz/v1",
)

response = client.chat.completions.create(
    model="<your-deployed-model-name>",
    messages=[{"role": "user", "content": "Hello!"}],
)
print(response.choices[0].message.content)

비동기식 추론 (멀티미디어·특수 모델)

void-model처럼 비디오 처리 등 비동기 작업이 필요한 모델은 Together CLI의 jig 명령어를 사용한다:

tg beta jig submit --watch --payload '{
    "video_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/input_video.mp4",
    "quadmask_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/quadmask_0.mp4",
    "prompt": "Empty park bench with fallen leaves on the ground",
    "use_pass2": false
}'

제출하면 다음과 같은 응답이 반환된다:

{
  "model": "void-byoc",
  "request_id": "019dc0f3-3c73-7a3f-b4b6-87ad06091180",
  "status": "running",
  "created_at": "2026-04-24T19:24:19.444567Z",
  "done_at": null,
  "outputs": null
}

추론이 완료되면 outputs에 결과물 URL이 포함된다. 결과 파일은 cURL로 다운로드한다:

curl -L -O \
  https://api.together.ai/v1/storage/<request_id>-result.mp4 \
  --header "Authorization: Bearer $TOGETHER_API_KEY"

-L 플래그는 스토리지 URL의 HTTP 리다이렉트를 따르기 위해 필요하며, -O는 로컬 파일로 저장한다.

활용 시나리오

신규 모델 즉시 테스트

연구소나 기업에서 새 모델을 HuggingFace에 공개하는 날, 즉시 프로덕션급 환경에서 평가할 수 있다. 자체 GPU VM 구성이나 추론 서버 설치를 기다릴 필요가 없다.

적합한 대상: AI 연구자, ML 엔지니어, 새 모델을 빠르게 벤치마킹해야 하는 팀

특수 도메인 모델 운영

사이버 보안(cybersecqwen-4b), 의료, 법률 등 특화 도메인의 오픈소스 모델을 Together 관리형 인프라에서 안정적으로 운영할 수 있다. 자체 인프라 없이도 전용 GPU 환경을 유지한다.

적합한 대상: 도메인 특화 AI 서비스를 구축하는 스타트업, 엔터프라이즈 팀

멀티미디어 AI 파이프라인

비디오 인페인팅(inpainting), 이미지 생성 등 GPU 집약적인 멀티미디어 모델을 비동기 배치로 처리하는 파이프라인 구성에 유리하다.

적합한 대상: 크리에이티브 툴 개발사, 미디어·엔터테인먼트 업계

비용 최적화 실험

서버리스 엔드포인트와 전용 컨테이너를 조합해 트래픽 패턴에 따라 비용을 최적화할 수 있다. 배치 추론 API를 활용하면 대규모 처리 비용을 최대 50% 절감할 수 있다.

적합한 대상: 대규모 AI 파이프라인을 운영하면서 비용 효율을 추구하는 팀

참고 자료

Deploy and inference any model from HuggingFace — Together.ai Blog (2026-05-10)
Together Dedicated Containers Skill — GitHub 공식 저장소
Together.ai CLI 문서 — Together.ai 공식 문서

Like?

AI Sparkup