AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Together.ai 튜토리얼 – HuggingFace 모든 모델을 Together.ai로 배포하고 추론하기

Together.ai의 전용 컨테이너 추론(Dedicated Container Inference, DCI)과 Goose CLI 에이전트를 조합하면, HuggingFace에 공개된 어떤 모델이든 한 문장 프롬프트로 프로덕션급 GPU 환경에 배포할 수 있다. 추론 서버 설정, 컨테이너 구성, 모델별 환경 세팅 등 사전 지식이 없어도 에이전트가 이를 대신 처리한다. 이 튜토리얼은 Netflix의 void-model을 실제 배포한 사례를 기반으로 전체 워크플로를 설명한다.

사전 준비

  • Together.ai 계정 및 API 키: together.ai에서 계정 생성 후 API 키 발급
  • Goose CLI 설치: Goose는 AI 에이전트 작업을 자동화하는 CLI 러너다 “bash # Goose 공식 설치 방법은 https://goose-docs.ai 참조
  • Node.js: npx 명령어 실행을 위해 필요
  • 환경 변수 설정: “bash export TOGETHER_API_KEY=<your_together_api_key>

HuggingFace 모델 배포하기

1단계: Together 전용 컨테이너 스킬 설치

Goose에 Together.ai DCI 관련 지식(컨테이너 스펙, 추론 서버 설정 방법 등)을 주입하는 스킬을 설치한다.

npx skills add togethercomputer/skills

이 명령 하나로 together-dedicated-containers 스킬이 설치된다. 에이전트가 Together 인프라에 맞게 컨테이너를 구성하는 방법을 알게 된다.

2단계: Goose 세션 시작 후 프롬프트 한 줄 입력

goose session start

세션 안에서 배포하고 싶은 HuggingFace 모델 URL을 포함한 문장을 입력한다:

I want to deploy this model on togethers dedicated containers https://huggingface.co/netflix/void-model

이것이 전부다. 더 이상의 입력은 필요 없다.

3단계: 에이전트 작업 완료 대기

에이전트가 다음을 자동으로 처리한다:

  1. HuggingFace에서 모델 상세 정보 수집
  2. 모델 아키텍처에 맞는 추론 서버 설정 파악
  3. 컨테이너 구성 파일 생성
  4. 실행 가능한 완전한 배포 레포지토리 생성

결과물 예시: blainekasten/together-void-model-container

사전 지식 없이도 에이전트가 모델별 최적 설정을 파악해 바로 실행 가능한 상태로 만들어준다.

추론 실행하기

모델 배포가 완료되면 Together CLI로 추론을 바로 테스트할 수 있다.

동기식 추론 (텍스트 모델)

OpenAI 호환 엔드포인트를 사용하는 경우:

from openai import OpenAI

client = OpenAI(
    api_key="<TOGETHER_API_KEY>",
    base_url="https://api.together.xyz/v1",
)

response = client.chat.completions.create(
    model="<your-deployed-model-name>",
    messages=[{"role": "user", "content": "Hello!"}],
)
print(response.choices[0].message.content)

비동기식 추론 (멀티미디어·특수 모델)

void-model처럼 비디오 처리 등 비동기 작업이 필요한 모델은 Together CLI의 jig 명령어를 사용한다:

tg beta jig submit --watch --payload '{
    "video_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/input_video.mp4",
    "quadmask_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/quadmask_0.mp4",
    "prompt": "Empty park bench with fallen leaves on the ground",
    "use_pass2": false
}'

제출하면 다음과 같은 응답이 반환된다:

{
  "model": "void-byoc",
  "request_id": "019dc0f3-3c73-7a3f-b4b6-87ad06091180",
  "status": "running",
  "created_at": "2026-04-24T19:24:19.444567Z",
  "done_at": null,
  "outputs": null
}

추론이 완료되면 outputs에 결과물 URL이 포함된다. 결과 파일은 cURL로 다운로드한다:

curl -L -O \
  https://api.together.ai/v1/storage/<request_id>-result.mp4 \
  --header "Authorization: Bearer $TOGETHER_API_KEY"

-L 플래그는 스토리지 URL의 HTTP 리다이렉트를 따르기 위해 필요하며, -O는 로컬 파일로 저장한다.

활용 시나리오

신규 모델 즉시 테스트

연구소나 기업에서 새 모델을 HuggingFace에 공개하는 날, 즉시 프로덕션급 환경에서 평가할 수 있다. 자체 GPU VM 구성이나 추론 서버 설치를 기다릴 필요가 없다.

적합한 대상: AI 연구자, ML 엔지니어, 새 모델을 빠르게 벤치마킹해야 하는 팀

특수 도메인 모델 운영

사이버 보안(cybersecqwen-4b), 의료, 법률 등 특화 도메인의 오픈소스 모델을 Together 관리형 인프라에서 안정적으로 운영할 수 있다. 자체 인프라 없이도 전용 GPU 환경을 유지한다.

적합한 대상: 도메인 특화 AI 서비스를 구축하는 스타트업, 엔터프라이즈 팀

멀티미디어 AI 파이프라인

비디오 인페인팅(inpainting), 이미지 생성 등 GPU 집약적인 멀티미디어 모델을 비동기 배치로 처리하는 파이프라인 구성에 유리하다.

적합한 대상: 크리에이티브 툴 개발사, 미디어·엔터테인먼트 업계

비용 최적화 실험

서버리스 엔드포인트와 전용 컨테이너를 조합해 트래픽 패턴에 따라 비용을 최적화할 수 있다. 배치 추론 API를 활용하면 대규모 처리 비용을 최대 50% 절감할 수 있다.

적합한 대상: 대규모 AI 파이프라인을 운영하면서 비용 효율을 추구하는 팀

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)