GPT-5가 나온 지 8개월 만에 GPT-5.5의 API 가격은 3배가 됐습니다. Gemini도, Anthropic도 방향은 같습니다. 그런데 같은 시점에 DeepSeek의 블렌드 가격은 프론티어 모델의 30분의 1 수준입니다.

SignalBloom AI의 Max Trivedi가 이 비용 역학을 정면으로 분석했습니다. DeepSeek을 로컬 AI 비용의 기준점으로 삼아, 인건비가 낮은 국가의 엔지니어와 OSS 모델의 조합이 프론티어 API만 쓰는 것보다 경제적으로 유리해지는 시점을 추산했는데, 그 기간이 약 11개월입니다.
출처: Outsourcing plus LocalAI will soon become more economical vs Frontier labs – SignalBloom AI
AI 추론 비용은 왜 계속 오르나
“AI 추론 비용은 계속 낮아질 것”이라는 통념과 달리, 미국 프론티어 랩들의 API 가격은 오히려 오름세입니다.
GPT-5.5는 GPT-5 대비 가격이 3배 이상 올랐고, Gemini 3.5 Flash는 직전 모델보다 3배, Anthropic은 Opus-4.7에 새 토크나이저를 적용해 실질 토큰 소비량을 32~47% 늘렸습니다. 가격표의 숫자가 바뀌지 않아도 실제로 내는 돈이 늘어나는 구조입니다.
여기에 ‘토큰맥싱(tokenmaxxing)’ 트렌드까지 겹칩니다. 에이전틱 루프가 많아질수록 입력 토큰이 폭발적으로 늘어나는데, 이 소비 증가와 단가 인상이 동시에 일어나고 있습니다.
30배 차이, 그게 정말 의미 있나
SignalBloom AI는 대규모 에이전틱 워크플로우를 기준으로 주요 모델의 블렌드 단가를 계산했습니다. 입력(캐시 포함) 100만 토큰당 출력 5만 토큰 비율을 가정했을 때, 캐시 히트율까지 반영한 실질 비용은 이렇습니다.
| 제공사 | 블렌드 단가 ($/1M 토큰) |
|---|---|
| Anthropic | $2.82 |
| OpenAI | $2.80 |
| DeepSeek | $0.094 |
약 30배 차이입니다. 프론티어 모델이 더 뛰어난 건 사실이지만, 그 격차가 비용 30배를 정당화할 만큼 크냐는 질문이 남습니다.
특히 코딩처럼 범위가 명확한 작업에서는, 실력 있는 엔지니어가 옆에서 방향을 잡아준다면 OSS 모델도 충분히 쓸 만합니다. 모델이 완벽할 필요가 없고, ‘충분히 좋으면’ 된다는 논리입니다.
11개월, 비용이 역전되는 시점
SignalBloom AI가 제시한 핵심 시나리오입니다. 인건비가 낮은 국가의 엔지니어를 고용하고 DeepSeek API를 쓰는 조합의 월 비용과, 프론티어 모델 추론 비용만의 증가 추세를 비교하면 약 11개월 시점에 역전이 일어납니다. 인건비, 토큰 소비 증가율, 모델 가격 인상 추세를 함께 반영한 추정치입니다.
물론 원문도 단순화 가정이 많다고 인정합니다. 미래의 추론 가격, 토큰 소비 트렌드 변화, 시장 반사성(참여자들이 상황을 보고 행동을 바꾸는 것)은 변수입니다. 로컬 모델의 품질이 빠르게 올라가고 있다는 점은 오히려 이 시나리오를 더 보수적으로 만들어줍니다.
프론티어 가격에 천장이 생긴다
이 에세이가 말하는 진짜 포인트는 11개월이라는 숫자보다, 구조적 논리에 있습니다.
AI 추론 비용이 일정 수준을 넘으면, 기업 입장에서는 “이 비용을 계속 쓸 이유가 있는가”를 따지기 시작합니다. 그 시점에 현실적인 대안(엔지니어 + OSS 모델)이 경쟁력 있게 존재한다면, 프론티어 랩들은 무한정 가격을 올릴 수 없습니다. 시장이 자연스럽게 가격 상한선을 만든다는 이야기입니다.
현재 AI 에이전트는 코딩 같은 범위가 좁은 작업에서는 인간을 앞서지만, 장기 기억, 자기 지식의 범위 파악, 충분한 근거가 있는지 판단하는 능력 등에서는 아직 한계가 있습니다. 이 간극이 존재하는 동안은, 인간 + 모델 조합이 순수 API보다 유연한 선택지가 될 수 있습니다.

답글 남기기