AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

월 $1,500에서 $300으로, LLM API 비용 80% 절감 실전 사례

LLM API를 사용하는 많은 개발자들이 익숙한 모델을 그냥 씁니다. GPT-4, Claude, Gemini 같은 유명 모델은 API 설정도 쉽고 성능도 검증되어 있으니까요. 하지만 이렇게 “기본값”을 쓰다 보면 실제로 필요한 것보다 5-10배 더 비싼 비용을 지불하게 됩니다.

개발자이자 데이터 과학자인 Karl Lorey가 자신의 블로그에 공개한 사례를 보면, 실제 프롬프트로 벤치마킹을 진행한 결과 월 $1,500이던 API 비용을 $300으로 줄일 수 있었다고 합니다. 어떻게 가능했을까요?

사진 출처: Karl Lorey

출처: Without Benchmarking LLMs, You’re Likely Overpaying 5-10x – Karl Lorey

범용 벤치마크는 당신의 업무를 예측하지 못한다

MMLU, GPQA Diamond, SWE Bench 같은 벤치마크를 보고 모델을 선택하는 건 합리적으로 보입니다. 하지만 이런 벤치마크는 당신의 실제 업무 성능을 예측하지 못합니다. 추론 벤치마크에서 1위를 한 모델이 고객 지원 챗봇에서는 형편없을 수 있고, 코딩 벤치마크 상위 모델이 데이터 추출 작업에서는 평범할 수 있습니다.

더 중요한 건 이런 벤치마크가 비용을 전혀 고려하지 않는다는 점이죠. 실무에서는 품질과 비용, 그리고 응답 속도의 균형이 필요합니다.

실제 프롬프트로 벤치마킹하는 5단계

Karl이 적용한 방법은 간단하지만 효과적입니다.

1단계: 실제 사례 수집
고객 지원 챗봇 사례에서는 실제 대화 기록 50개를 추출했습니다. 자주 묻는 질문부터 엣지 케이스까지 포함했죠.

2단계: 기대 출력 정의
각 대화에 대해 “좋은 답변”의 기준을 명확히 정했습니다. 예를 들어 “제품 가격 5.99달러를 알려주고 즉시 주문을 제안하는 답변”처럼 구체적으로 정의했습니다.

3단계: 벤치마크 데이터셋 생성
프롬프트(대화 + 지시사항)와 기대 응답을 하나의 데이터셋으로 만들었습니다.

4단계: 모든 모델 실행
OpenRouter를 사용해 100개 이상의 LLM을 동일한 API로 테스트했습니다. OpenRouter는 OpenAI SDK와 호환되기 때문에 모델 이름만 바꾸면 됩니다.

from openai import OpenAI

client = OpenAI(
  base_url="https://openrouter.ai/api/v1",
  api_key="<OPENROUTER_API_KEY>",
)

completion = client.chat.completions.create(
  model="openai/gpt-5",  # 모델 이름만 변경
  messages=[{"role": "user", "content": "Hello!"}]
)

5단계: LLM-as-judge로 점수 매기기
수백 개의 응답을 수동으로 비교할 순 없으니, Claude Opus 4.5를 “심판”으로 사용했습니다. 각 응답이 기대 출력과 얼마나 잘 맞는지 1-10점으로 평가하도록 했죠. 점수만이 아니라 평가 이유도 함께 생성하게 해서 신뢰성을 높였습니다.

Pareto 효율성: 최적의 모델 찾기

품질 점수만으로는 부족합니다. 비용과 응답 속도도 측정해야 하죠. Karl은 각 모델의 평균 응답 비용과 전체 응답 시간을 측정했습니다.

여기서 Pareto 효율성 개념이 등장합니다. 100개 모델 중 대부분은 “더 싸고 더 좋은” 다른 모델이 존재합니다. Pareto frontier는 “이보다 싸우면서 더 나은 모델은 없다”는 경계선을 그려줍니다. 비용 대비 최적의 모델들만 남는 거죠.

결과는 놀라웠습니다. GPT-5와 비슷한 품질을 제공하면서도 10배 저렴한 모델들이 있었습니다. 보수적으로 선택해도 5배 절감, 월 $1,000 이상을 아낄 수 있었죠.

자동화 도구 Evalry

이 과정이 너무 복잡해서 Karl은 Evalry라는 도구를 만들었습니다. 코드 없이 300개 이상의 모델을 한 번에 테스트하고, 품질-속도-비용을 한눈에 비교할 수 있습니다. 새로운 모델이 나왔을 때 더 나은 옵션이 있으면 알림을 받는 기능도 계획 중이라고 하네요.

더 중요한 건 이런 벤치마킹이 일회성이 아니라는 점입니다. 매주 새로운 모델이 나오고 가격도 변합니다. 한 달 전에 최적이던 모델이 지금은 아닐 수 있죠. 지속적인 모니터링이 필요한 이유입니다.

참고자료

Fediverse reactions

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다