AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

LiteLLM – 100개 이상 LLM을 OpenAI 형식으로 통합 호출하는 AI 게이트웨이

LiteLLM은 OpenAI·Anthropic·Gemini·Bedrock·Azure 등 100개 이상의 LLM 프로바이더를 단일 OpenAI 포맷으로 호출할 수 있는 오픈소스 AI 게이트웨이다. Python SDK로 라이브러리에 직접 통합하거나, 프록시 서버(AI Gateway)로 배포해 팀 전체의 LLM 호출을 중앙에서 관리할 수 있다. GitHub ★45.5k, YC W23 선정.

Stripe, Netflix, Google ADK, OpenHands, OpenAI Agents SDK 등이 프로덕션에서 사용 중이다.

왜 LiteLLM인가

프로바이더마다 다른 SDK, 인증 방식, 요청 포맷, 오류 타입을 각각 관리하는 복잡성을 제거한다.

문제LiteLLM 해결책
프로바이더별 SDK 파편화단일 completion() API로 100+ LLM 호출
코드 재작성 없이 모델 교체OpenAI 드롭인 호환 (base_url 변경만으로 전환)
비용·사용량 추적가상 키 + 스펜드 추적 대시보드 내장
고가용성로드 밸런싱·폴백·재시도 기본 제공
지연 시간P95 8ms (1k RPS 벤치마크)

두 가지 사용 방식

1. Python SDK

애플리케이션 코드에 직접 통합하는 방식이다.

uv add litellm
from litellm import completion
import os

os.environ["OPENAI_API_KEY"] = "..."
os.environ["ANTHROPIC_API_KEY"] = "..."

# OpenAI
response = completion(model="openai/gpt-4o", messages=[{"role": "user", "content": "안녕!"}])

# Anthropic — 코드 변경 없이 모델만 교체
response = completion(model="anthropic/claude-sonnet-4-20250514", messages=[{"role": "user", "content": "안녕!"}])

2. AI 게이트웨이 (프록시 서버)

팀이나 조직 단위로 LLM 호출을 중앙에서 관리할 때 사용한다. 가상 키로 팀별 예산을 제한하고, 모든 요청을 로깅한다.

uv tool install 'litellm[proxy]'
litellm --model gpt-4o
# → http://0.0.0.0:4000 에서 OpenAI 호환 엔드포인트 실행

기존 OpenAI SDK 코드에서 base_url만 교체하면 게이트웨이를 경유한다:

import openai
client = openai.OpenAI(api_key="가상키", base_url="http://0.0.0.0:4000")

주요 기능

지원 엔드포인트

/chat/completions, /responses, /embeddings, /images, /audio, /batches, /rerank, /a2a, /messages 등 모든 주요 OpenAI 호환 엔드포인트를 지원한다.

가상 키(Virtual Keys)와 비용 관리

팀·프로젝트별로 가상 API 키를 발급하고 스펜드 한도를 설정한다. 실제 프로바이더 키는 게이트웨이 서버에만 보관된다.

가드레일(Guardrails)

입출력 콘텐츠 필터링, PII 탐지, 프롬프트 인젝션 방어를 파이프라인에 삽입할 수 있다.

로드 밸런싱과 폴백

여러 프로바이더·모델을 묶어 라운드로빈·최소 지연 등의 전략으로 분산하고, 장애 시 자동으로 폴백 모델로 전환한다.

누가 사용하면 좋은가

  • 다중 LLM 프로바이더를 사용하는 팀: 모델 교체 비용을 최소화하고 싶을 때
  • 비용·사용량을 추적해야 하는 엔터프라이즈: 팀별 예산 제한과 감사 로그가 필요할 때
  • 기존 OpenAI 코드를 다른 모델로 확장: base_url만 바꾸는 드롭인 마이그레이션

설치와 배포

# Python SDK만
pip install litellm

# 프록시 서버 포함
pip install 'litellm[proxy]'

# Docker (프로덕션 권장)
docker run -p 4000:4000 ghcr.io/berriai/litellm:main-latest

관련 문서

  • portkey-models — 40개+ 프로바이더 LLM 가격 데이터베이스
  • aiops — LLM 운영 비용·품질 통제 레이어
  • langfuse — LLM 앱 모니터링·평가 플랫폼
  • inference-caching — LLM 추론 비용 절감 캐시 전략


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)