5월 한 달 사이, 프로덕션 AI 시장의 지형이 눈에 띄게 달라졌습니다. 토큰을 가장 많이 쓰는 모델과 돈을 가장 많이 버는 모델이 완전히 갈렸거든요.

Vercel이 자사 AI Gateway를 통해 집계한 2026년 5월 프로덕션 데이터를 공개했습니다. 매달 수십조 토큰이 오가는 게이트웨이답게, 벤치마크가 아닌 실제 서비스 트래픽 기반이라는 점에서 신뢰도가 높은 자료입니다. 핵심은 DeepSeek V4의 등장으로 ‘어떤 모델에 얼마를 쓰는가’가 재편됐다는 것입니다.
출처: DeepSeek enters the fight for token volume, Anthropic continues to dominate spend – Vercel
17% vs 1%, 같은 AI인데 숫자가 다른 이유
| 랩 | 토큰 점유율 | 비용 점유율 |
|---|---|---|
| Anthropic | 32% | 65% |
| DeepSeek | 17% | ~1% |
| OpenAI | 13% | 13% |
4월만 해도 DeepSeek는 AI Gateway 전체 토큰의 1% 미만을 차지했습니다. 그런데 5월에 DeepSeek V4 Flash와 V4 Pro가 출시되자 단 한 달 만에 토큰 점유율이 17%로 치솟았습니다. OpenAI를 제치고 게이트웨이 전체 3위로 올라선 거예요.
그런데 비용 점유율은 여전히 1% 수준입니다. DeepSeek V4 Flash의 가격은 입력 기준 토큰 백만 개당 0.14달러로, 비슷한 성능의 Anthropic 모델보다 20~50배 저렴합니다. 토큰은 많이 쓰는데 돈은 거의 안 드는 구조인 거죠.
단순히 싸서 쓰이게 된 건 아닙니다. Vercel 데이터는 팀들이 DeepSeek V4를 기존 평가 기준에 실제로 테스트해보고 품질이 충분하다고 판단한 뒤 프로덕션에 올렸다고 분석합니다. 이전에도 저가형 모델은 AI Gateway에 있었지만, 이 정도 규모로 프로덕션에 진입한 건 DeepSeek V4가 처음입니다.
왜 Anthropic은 여전히 65%를 가져가는가
토큰 점유율에서 DeepSeek가 치고 올라오는 동안, Anthropic의 비용 점유율은 오히려 61%에서 65%로 늘었습니다. AI 앱 생성, 백오피스 에이전트, 코딩 에이전트 같은 고위험 업무에서는 70~80%를 독식하고 있죠.
코딩 에이전트 사례가 이 구도를 가장 선명하게 보여줍니다. DeepSeek가 해당 카테고리 토큰 볼륨의 49%를 차지했지만, 비용은 4%에 불과합니다. 반면 Anthropic은 토큰 28%로 비용의 70%를 가져갑니다.
같은 코딩 작업이어도 맥락이 다릅니다. 빠르고 반복적인 코드 완성이나 간단한 리팩토링은 DeepSeek로, 복잡한 아키텍처 결정이나 보안이 중요한 코드 검토는 Anthropic으로 라우팅하는 식입니다. 틀렸을 때의 비용이 클수록 더 비싼 모델을 쓰는 것이죠.
업그레이드는 당연하지 않다, Gemini의 경우
‘모델 라우팅’이 비용 전략이 되고 있다는 점은 Gemini 사례에서도 드러납니다. 5월에 Gemini 3.5 Flash가 출시됐는데, 이전 버전인 3.0 Flash보다 가격이 높았습니다. 결과는 소극적 전환이었습니다. 월말 기준 3.5가 Gemini Flash 패밀리 내 토큰의 7%를 차지하는 동안, 3.0은 여전히 90%를 유지했습니다.
불과 두 달 전에 Gemini 3.1 Pro가 출시되자마자 바로 30% 전환이 이뤄졌던 것과 대조적입니다. 당시에는 성능 대비 가격 격차가 분명했고, 그래서 팀들이 빠르게 움직였습니다. 3.5 Flash는 그 설득력이 약했던 거죠. 새 모델이 나왔다고 자동으로 옮겨가던 패턴에서, ROI를 따져보는 패턴으로 바뀐 겁니다.
모델 하나의 시대는 지났다
이번 데이터가 보여주는 큰 그림은 이렇습니다. 전체 AI 지출은 5월에 전월 대비 43% 늘었고, 토큰 볼륨도 20% 증가했습니다. 수요 자체는 계속 커지고 있어요. 다만 그 안에서 ‘어떤 작업에 어떤 모델을 쓰는가’에 대한 의식이 생겼습니다.
대규모 요청을 처리하는 앱일수록 더 많은 모델을 동시에 운용한다는 데이터도 이를 뒷받침합니다. 월 100만 건 이상 요청을 처리하는 앱의 과반수는 11개 이상의 모델을 프로덕션에서 함께 사용하고 있습니다.
단일 모델로 모든 작업을 처리하던 시대에서, 작업의 성격과 리스크에 따라 모델을 고르는 시대로 넘어가고 있는 셈입니다. 그 전환이 데이터로 처음 뚜렷하게 보인 달이 2026년 5월입니다.
참고자료: April 2026 AI Gateway Production Index – Vercel

답글 남기기