AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

OptiLLM – 추론 시간 최적화로 정확도를 2~10배 높이는 OpenAI 호환 LLM 프록시

OptiLLM은 20가지 이상의 최신 추론 시간 최적화 기법을 제공하는 OpenAI API 호환 프록시다. 수학·코딩·논리 추론에서 모델 재훈련이나 파인튜닝 없이 2~10배의 정확도 향상을 달성한다. 기존 OpenAI 클라이언트를 그대로 사용하면서 base_url만 바꾸면 바로 적용된다.

핵심 특징

  • 즉각적 향상: 수학, 코딩, 논리 추론에서 2~10배 정확도 개선
  • 드롭인 교체: OpenAI 호환 API 엔드포인트 어디서나 동작
  • 훈련 불필요: 기존 API 호출을 프록시로 연결하기만 하면 됨
  • 멀티 프로바이더: OpenAI, Anthropic, Google, Cerebras 및 LiteLLM을 통해 100개 이상 모델 지원

실측 성능

기법기본 모델향상벤치마크
MARSGemini 2.5 Flash Lite+30.0점AIME 2025 (43.3→73.3)
CePOLlama 3.3 70B+18.6점Math-L5 (51.0→69.6)
AutoThinkDeepSeek-R1-1.5B+9.34점GPQA-Diamond (21.72→31.06)
LongCePOLlama 3.3 70B+13.6점InfiniteBench (58.0→71.6)
MOAGPT-4o-miniGPT-4 수준Arena-Hard-Auto
PlanSearchGPT-4o-minipass@5 +20%LiveCodeBench

빠른 시작

pip install optillm
export OPENAI_API_KEY="your-key-here"
optillm
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1")

# 모델명 앞에 기법 슬러그를 붙이면 적용
response = client.chat.completions.create(
    model="moa-gpt-4o-mini",  # Mixture of Agents 적용
    messages=[{"role": "user", "content": "2x + 3 = 7에서 x는?"}]
)

Docker로도 사용할 수 있다:

docker pull ghcr.io/algorithmicsuperintelligence/optillm:latest
docker run -p 8000:8000 ghcr.io/algorithmicsuperintelligence/optillm:latest

주요 최적화 기법

슬러그설명
mars다중 에이전트가 다양한 온도로 탐색 후 교차 검증·반복 개선
cepoBest-of-N, CoT, Self-Reflection, Self-Improvement 결합 (Cerebras)
moaMixture of Agents — 여러 에이전트 응답을 통합
mctsMonte Carlo Tree Search 기반 응답 결정
plansearch자연어 계획 후보를 탐색해 문제 해결
bonBest-of-N — 여러 응답 생성 후 최선 선택
cot_reflection<thinking>, <reflection>, <output> 섹션으로 추론
self_consistency고급 자기 일관성 방법
z3Z3 theorem prover를 활용한 논리 추론
re2쿼리를 두 번 처리해 추론 개선 (ReRead)

기법 조합

&|로 여러 기법을 결합할 수 있다:

# 파이프라인: cot_reflection → mcts 순서로 처리
model="cot_reflection&mcts-gpt-4o-mini"

# 병렬: bon과 moa를 동시에 실행해 응답 목록 반환
model="bon|moa-gpt-4o-mini"

또는 요청 본문에 직접 지정:

extra_body={"optillm_approach": "bon|moa|mcts"}

플러그인

슬러그설명
splSystem Prompt Learning — 모델이 문제 해결 전략을 학습
longcepo긴 문서를 분할 처리해 무한 컨텍스트 지원
mcpMCP 클라이언트 — 임의의 MCP 서버와 연동
deep_researchTTD-DR 기반 심층 연구 보고서 생성
memory단기 메모리 레이어로 무제한 컨텍스트 구현
executecode파이썬 코드 실행 인터프리터
routeroptillm-modernbert-large로 최적 기법 자동 선택

지원 프로바이더

프로바이더필요 환경변수
OpenAIOPENAI_API_KEY
AnthropicAnthropic SDK 설정
CerebrasCEREBRAS_API_KEY
Azure OpenAIAZURE_OPENAI_API_KEY, AZURE_API_VERSION, AZURE_API_BASE
LiteLLM (100+ 모델)프로바이더별 상이

누가 쓰면 좋을까

  • 모델 재훈련 없이 수학·코딩·추론 성능을 올리려는 ML 엔지니어
  • 소형 모델로 대형 모델 수준의 결과를 얻으려는 비용 최적화 팀
  • 다양한 추론 기법을 실험하고 싶은 연구자

라이선스

Apache 2.0



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)