Together.ai – 오픈소스 AI 모델 실행·파인튜닝·배포를 위한 클라우드 플랫폼

소개
주요 기능
추론 API
HuggingFace 모델 직접 배포 — Dedicated Container Inference (DCI)
파인튜닝 플랫폼
배치 추론 API
고성능 인프라
경쟁 서비스 비교
설치 및 API 사용
API 키 발급
Together CLI 설치
Python SDK
가격 모델 개요
관련 문서

Together.ai는 200개 이상의 오픈소스 AI 모델을 실행하고, 자체 모델을 파인튜닝(fine-tuning)하거나 HuggingFace의 임의 모델을 전용 GPU 환경에 배포할 수 있는 클라우드 플랫폼이다. OpenAI 호환 API를 제공해 기존 코드를 최소한의 수정으로 전환할 수 있으며, 경쟁력 있는 추론 가격과 함께 배치 추론, 전용 컨테이너, FlashAttention-4 등 고성능 인프라를 지원한다.

공식 사이트: https://www.together.ai 문서: https://docs.together.ai

소개

오픈소스 AI 모델을 직접 운영하려면 GPU 클러스터 구성, 추론 서버 설정, 컨테이너 관리 등 상당한 인프라 부담이 따른다. Together.ai는 이 복잡성을 추상화하여 개발자가 모델 선택과 활용에만 집중할 수 있게 한다.

주요 가치 제안은 세 가지다. 첫째, 특정 모델 목록에 제한되지 않고 HuggingFace에 존재하는 모든 모델을 자신의 전용 GPU 환경에 배포할 수 있다. 둘째, OpenAI 클라이언트와 호환되는 API를 제공해 기존 코드베이스 마이그레이션이 쉽다. 셋째, 사용한 만큼 비용을 지불하는 구조로 실험 비용 부담을 낮춘다.

주요 기능

추론 API

Llama, Mistral, Qwen 등 200개 이상의 오픈소스 모델에 대한 서버리스(serverless) 추론 API를 제공한다. OpenAI Python SDK의 base_url을 Together.ai 엔드포인트로 변경하는 것만으로 전환이 가능하다.

from openai import OpenAI

client = OpenAI(
    api_key="<TOGETHER_API_KEY>",
    base_url="https://api.together.xyz/v1",
)

response = client.chat.completions.create(
    model="meta-llama/Llama-3.3-70B-Instruct-Turbo",
    messages=[{"role": "user", "content": "안녕하세요!"}],
)
print(response.choices[0].message.content)

HuggingFace 모델 직접 배포 — Dedicated Container Inference (DCI)

Together.ai의 핵심 차별점 중 하나다. HuggingFace에 공개된 모델이라면 Together의 전용 컨테이너 추론(Dedicated Container Inference, DCI) 환경에 직접 배포할 수 있다. 공유 리소스 없이 자신만의 GPU 환경에서 모델을 운영하며, 추론 서버 설정이나 컨테이너 구성을 수동으로 처리할 필요가 없다.

Goose CLI 에이전트와 Together dedicated containers 스킬(skill)을 조합하면 한 문장으로 임의의 HuggingFace 모델을 배포할 수도 있다 (자세한 내용은 together-ai-tutorial-deploy-huggingface 참고).

파인튜닝 플랫폼

자체 데이터로 오픈소스 모델을 파인튜닝하고 결과 모델을 Together 인프라에서 바로 서빙할 수 있다. 대형 모델 및 긴 컨텍스트를 지원하는 업그레이드가 지속적으로 이루어지고 있다.

배치 추론 API

비동기 대규모 처리가 필요한 워크로드에 대해 일반 추론 대비 최대 50% 낮은 비용으로 배치 추론을 제공한다. 수십억 토큰 규모의 데이터 파이프라인에 적합하다.

고성능 인프라

FlashAttention-4: NVIDIA Blackwell에서 cuDNN 대비 최대 1.3× 빠른 어텐션 커널
ATLAS: 런타임 학습 가속기(speculator)로 LLM 추론 속도를 최대 4× 향상
Together GPU Clusters: 자가 서비스 NVIDIA GPU 클러스터 (GA 출시)

경쟁 서비스 비교

기능	Together.ai	Replicate	Modal
OpenAI 호환 API	O	X	X
서버리스 추론	O	O	O
HuggingFace 임의 모델 배포	O (DCI)	O	O
파인튜닝	O	X	X
전용 컨테이너	O	X	O
모델 선택 폭	200+	수천 개	자유
가격 모델	토큰당 / 컨테이너 시간당	실행 시간당	GPU 초당

Replicate는 커뮤니티 모델 수가 많지만 파인튜닝과 엔터프라이즈 기능이 제한적이다. Modal은 범용 서버리스 컴퓨팅에 강하지만 AI 모델 특화 기능(파인튜닝, 모델 허브 등)이 적다. Together.ai는 오픈소스 LLM 운영에 특화된 올인원 플랫폼을 지향한다.

설치 및 API 사용

API 키 발급

together.ai에서 계정 생성
대시보드에서 API 키 발급
환경 변수 설정: export TOGETHER_API_KEY=<your_key>

Together CLI 설치

pip install together

# 사용 가능한 모델 목록 확인
tg models list

# 기본 추론 테스트
tg chat meta-llama/Llama-3.3-70B-Instruct-Turbo

Python SDK

import together

client = together.Together(api_key="<TOGETHER_API_KEY>")

response = client.chat.completions.create(
    model="meta-llama/Llama-3.3-70B-Instruct-Turbo",
    messages=[{"role": "user", "content": "Explain RAG in one sentence."}],
)
print(response.choices[0].message.content)

가격 모델 개요

서버리스 추론: 토큰당 과금. 모델에 따라 다르며 공식 가격 페이지에서 확인
전용 컨테이너(DCI): 컨테이너 실행 시간당 과금. 영업팀을 통해 설정
파인튜닝: 학습 토큰당 과금
배치 추론: 서버리스 대비 최대 50% 할인

AI Sparkup