OptiLLM – 추론 시간 최적화로 정확도를 2~10배 높이는 OpenAI 호환 LLM 프록시

핵심 특징
실측 성능
빠른 시작
주요 최적화 기법
기법 조합
플러그인
지원 프로바이더
누가 쓰면 좋을까
라이선스

OptiLLM은 20가지 이상의 최신 추론 시간 최적화 기법을 제공하는 OpenAI API 호환 프록시다. 수학·코딩·논리 추론에서 모델 재훈련이나 파인튜닝 없이 2~10배의 정확도 향상을 달성한다. 기존 OpenAI 클라이언트를 그대로 사용하면서 base_url만 바꾸면 바로 적용된다.

GitHub: algorithmicsuperintelligence/optillm
HuggingFace Space: codelion/optillm

핵심 특징

즉각적 향상: 수학, 코딩, 논리 추론에서 2~10배 정확도 개선
드롭인 교체: OpenAI 호환 API 엔드포인트 어디서나 동작
훈련 불필요: 기존 API 호출을 프록시로 연결하기만 하면 됨
멀티 프로바이더: OpenAI, Anthropic, Google, Cerebras 및 LiteLLM을 통해 100개 이상 모델 지원

실측 성능

기법	기본 모델	향상	벤치마크
MARS	Gemini 2.5 Flash Lite	+30.0점	AIME 2025 (43.3→73.3)
CePO	Llama 3.3 70B	+18.6점	Math-L5 (51.0→69.6)
AutoThink	DeepSeek-R1-1.5B	+9.34점	GPQA-Diamond (21.72→31.06)
LongCePO	Llama 3.3 70B	+13.6점	InfiniteBench (58.0→71.6)
MOA	GPT-4o-mini	GPT-4 수준	Arena-Hard-Auto
PlanSearch	GPT-4o-mini	pass@5 +20%	LiveCodeBench

빠른 시작

pip install optillm
export OPENAI_API_KEY="your-key-here"
optillm

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1")

# 모델명 앞에 기법 슬러그를 붙이면 적용
response = client.chat.completions.create(
    model="moa-gpt-4o-mini",  # Mixture of Agents 적용
    messages=[{"role": "user", "content": "2x + 3 = 7에서 x는?"}]
)

Docker로도 사용할 수 있다:

docker pull ghcr.io/algorithmicsuperintelligence/optillm:latest
docker run -p 8000:8000 ghcr.io/algorithmicsuperintelligence/optillm:latest

주요 최적화 기법

슬러그	설명
`mars`	다중 에이전트가 다양한 온도로 탐색 후 교차 검증·반복 개선
`cepo`	Best-of-N, CoT, Self-Reflection, Self-Improvement 결합 (Cerebras)
`moa`	Mixture of Agents — 여러 에이전트 응답을 통합
`mcts`	Monte Carlo Tree Search 기반 응답 결정
`plansearch`	자연어 계획 후보를 탐색해 문제 해결
`bon`	Best-of-N — 여러 응답 생성 후 최선 선택
`cot_reflection`	`<thinking>`, `<reflection>`, `<output>` 섹션으로 추론
`self_consistency`	고급 자기 일관성 방법
`z3`	Z3 theorem prover를 활용한 논리 추론
`re2`	쿼리를 두 번 처리해 추론 개선 (ReRead)

기법 조합

&와 |로 여러 기법을 결합할 수 있다:

# 파이프라인: cot_reflection → mcts 순서로 처리
model="cot_reflection&mcts-gpt-4o-mini"

# 병렬: bon과 moa를 동시에 실행해 응답 목록 반환
model="bon|moa-gpt-4o-mini"

또는 요청 본문에 직접 지정:

extra_body={"optillm_approach": "bon|moa|mcts"}

플러그인

슬러그	설명
`spl`	System Prompt Learning — 모델이 문제 해결 전략을 학습
`longcepo`	긴 문서를 분할 처리해 무한 컨텍스트 지원
`mcp`	MCP 클라이언트 — 임의의 MCP 서버와 연동
`deep_research`	TTD-DR 기반 심층 연구 보고서 생성
`memory`	단기 메모리 레이어로 무제한 컨텍스트 구현
`executecode`	파이썬 코드 실행 인터프리터
`router`	optillm-modernbert-large로 최적 기법 자동 선택

지원 프로바이더

프로바이더	필요 환경변수
OpenAI	`OPENAI_API_KEY`
Anthropic	Anthropic SDK 설정
Cerebras	`CEREBRAS_API_KEY`
Azure OpenAI	`AZURE_OPENAI_API_KEY`, `AZURE_API_VERSION`, `AZURE_API_BASE`
LiteLLM (100+ 모델)	프로바이더별 상이

누가 쓰면 좋을까

모델 재훈련 없이 수학·코딩·추론 성능을 올리려는 ML 엔지니어
소형 모델로 대형 모델 수준의 결과를 얻으려는 비용 최적화 팀
다양한 추론 기법을 실험하고 싶은 연구자

라이선스

Apache 2.0

Like?

AI Sparkup