OptiLLM은 20가지 이상의 최신 추론 시간 최적화 기법을 제공하는 OpenAI API 호환 프록시다. 수학·코딩·논리 추론에서 모델 재훈련이나 파인튜닝 없이 2~10배의 정확도 향상을 달성한다. 기존 OpenAI 클라이언트를 그대로 사용하면서 base_url만 바꾸면 바로 적용된다.
- GitHub: algorithmicsuperintelligence/optillm
- HuggingFace Space: codelion/optillm
핵심 특징
- 즉각적 향상: 수학, 코딩, 논리 추론에서 2~10배 정확도 개선
- 드롭인 교체: OpenAI 호환 API 엔드포인트 어디서나 동작
- 훈련 불필요: 기존 API 호출을 프록시로 연결하기만 하면 됨
- 멀티 프로바이더: OpenAI, Anthropic, Google, Cerebras 및 LiteLLM을 통해 100개 이상 모델 지원
실측 성능
| 기법 | 기본 모델 | 향상 | 벤치마크 |
|---|---|---|---|
| MARS | Gemini 2.5 Flash Lite | +30.0점 | AIME 2025 (43.3→73.3) |
| CePO | Llama 3.3 70B | +18.6점 | Math-L5 (51.0→69.6) |
| AutoThink | DeepSeek-R1-1.5B | +9.34점 | GPQA-Diamond (21.72→31.06) |
| LongCePO | Llama 3.3 70B | +13.6점 | InfiniteBench (58.0→71.6) |
| MOA | GPT-4o-mini | GPT-4 수준 | Arena-Hard-Auto |
| PlanSearch | GPT-4o-mini | pass@5 +20% | LiveCodeBench |
빠른 시작
pip install optillm
export OPENAI_API_KEY="your-key-here"
optillmfrom openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1")
# 모델명 앞에 기법 슬러그를 붙이면 적용
response = client.chat.completions.create(
model="moa-gpt-4o-mini", # Mixture of Agents 적용
messages=[{"role": "user", "content": "2x + 3 = 7에서 x는?"}]
)Docker로도 사용할 수 있다:
docker pull ghcr.io/algorithmicsuperintelligence/optillm:latest
docker run -p 8000:8000 ghcr.io/algorithmicsuperintelligence/optillm:latest주요 최적화 기법
| 슬러그 | 설명 |
|---|---|
mars | 다중 에이전트가 다양한 온도로 탐색 후 교차 검증·반복 개선 |
cepo | Best-of-N, CoT, Self-Reflection, Self-Improvement 결합 (Cerebras) |
moa | Mixture of Agents — 여러 에이전트 응답을 통합 |
mcts | Monte Carlo Tree Search 기반 응답 결정 |
plansearch | 자연어 계획 후보를 탐색해 문제 해결 |
bon | Best-of-N — 여러 응답 생성 후 최선 선택 |
cot_reflection | <thinking>, <reflection>, <output> 섹션으로 추론 |
self_consistency | 고급 자기 일관성 방법 |
z3 | Z3 theorem prover를 활용한 논리 추론 |
re2 | 쿼리를 두 번 처리해 추론 개선 (ReRead) |
기법 조합
&와 |로 여러 기법을 결합할 수 있다:
# 파이프라인: cot_reflection → mcts 순서로 처리
model="cot_reflection&mcts-gpt-4o-mini"
# 병렬: bon과 moa를 동시에 실행해 응답 목록 반환
model="bon|moa-gpt-4o-mini"또는 요청 본문에 직접 지정:
extra_body={"optillm_approach": "bon|moa|mcts"}플러그인
| 슬러그 | 설명 |
|---|---|
spl | System Prompt Learning — 모델이 문제 해결 전략을 학습 |
longcepo | 긴 문서를 분할 처리해 무한 컨텍스트 지원 |
mcp | MCP 클라이언트 — 임의의 MCP 서버와 연동 |
deep_research | TTD-DR 기반 심층 연구 보고서 생성 |
memory | 단기 메모리 레이어로 무제한 컨텍스트 구현 |
executecode | 파이썬 코드 실행 인터프리터 |
router | optillm-modernbert-large로 최적 기법 자동 선택 |
지원 프로바이더
| 프로바이더 | 필요 환경변수 |
|---|---|
| OpenAI | OPENAI_API_KEY |
| Anthropic | Anthropic SDK 설정 |
| Cerebras | CEREBRAS_API_KEY |
| Azure OpenAI | AZURE_OPENAI_API_KEY, AZURE_API_VERSION, AZURE_API_BASE |
| LiteLLM (100+ 모델) | 프로바이더별 상이 |
누가 쓰면 좋을까
- 모델 재훈련 없이 수학·코딩·추론 성능을 올리려는 ML 엔지니어
- 소형 모델로 대형 모델 수준의 결과를 얻으려는 비용 최적화 팀
- 다양한 추론 기법을 실험하고 싶은 연구자
라이선스
Apache 2.0