AI 정액제의 함정, 왜 구독 모델은 처음부터 무너질 운명이었나

2026-05-27

﹒

2 minutes

Microsoft는 이번 주 내부적으로 Claude Code 라이선스를 취소했습니다. Uber는 2026년 AI 예산을 4개월 만에 소진했고, GitHub는 정액제 플랜을 전면 개편 중입니다. 이걸 우연이라고 보기엔 너무 비슷한 일들이 너무 짧은 시간 안에 일어났습니다.

사진 출처: Arnon Shimoni

프로덕트 전략가 Arnon Shimoni가 이 현상의 구조적 원인을 분석한 글을 발표했습니다. 요지는 간단합니다. “AI 정액제는 처음부터 작동할 수 없는 구조였다.” 문제는 단순한 비용 관리 실패가 아니라, 근본적인 사고의 오류에서 비롯됐다는 겁니다.

출처: The current AI pricing was always going to go away – Arnon Shimoni

단가가 내려갈수록 총비용이 올라가는 역설

AI 서비스 회사들은 이런 논리로 정액제를 설계했습니다. “모델 세대가 바뀔수록 토큰당 비용이 떨어지니까, 전체 비용도 줄어들 것이다.” 실제로 토큰당 단가는 내려갔습니다. 어떤 경우엔 10분의 1이 되기도 했죠.

그런데 총비용은 오히려 올랐습니다.

도로 계획에서 잘 알려진 개념이 있습니다. ‘유발 수요(induced demand)’입니다. 고속도로에 차선을 하나 추가하면 교통량이 줄 것 같지만, 실제로는 그 차선 때문에 새로운 통행이 생겨납니다. AI도 같은 구조입니다. 단가가 낮아지면 사람들은 더 많이 씁니다. 예전에는 한 번의 API 호출로 끝냈던 작업을 이제는 에이전트 워크플로로 50번 호출합니다. 추론 모델은 답 하나를 내는 데 4분 넘게 돌아갑니다. 단위 가격은 내려갔지만, 단위 수가 폭발하면서 총지출은 계속 올라갔습니다.

정액제를 설계한 팀들은 “사용자 행동이 바뀌지 않을 것”을 가정했습니다. AI가 저렴해지면 쓰는 방식이 바뀐다는 건 사실 예측 가능한 일이었는데도.

GPU와 메모리 가격이 거꾸로 움직이기 시작했다

수요 측면만이 아닙니다. 공급 측면도 예상과 반대로 갔습니다.

AI 추론은 Nvidia 가속기와 고대역폭 메모리(HBM)의 조합으로 돌아갑니다. 그런데 HBM 가격이 최근 18개월 사이 4배 올랐습니다. Morgan Stanley 추정에 따르면 신형 Nvidia VR200 서버의 부품 원가(BOM)는 이전 세대 대비 95% 높아졌는데, 메모리 부분만 따지면 435%나 됩니다.

병목은 생산 능력에 있습니다. HBM을 가속기에 결합하는 패키징 공정은 TSMC 한 곳이 사실상 담당하고 있고, HBM 자체는 SK Hynix가 시장을 주도합니다. 어느 쪽도 하룻밤 사이에 생산량을 늘릴 수 없습니다. 설비 투자 결정부터 생산 가동까지 최소 18~36개월이 걸리는데, 그 계획들은 지금의 수요를 한참 밑도는 예측 기준으로 세워졌습니다.

결과적으로 전 세대와 비슷한 규모의 클러스터를 구축하는 데 약 2배의 비용이 듭니다. 여기에 전력과 냉각 비용까지 더해지면서, 대형 클라우드 기업들이 앞다퉈 “기가와트급 데이터센터를 짓겠다”고 발표하는 건 마케팅이 아니라 실제 제약을 반영하는 겁니다.

수요는 폭발했고, 공급 비용은 올랐습니다. AI 서비스 회사들은 이 두 힘 사이에 끼어 있습니다.

정액제의 선택지는 둘 다 나쁘다

Shimoni는 이 구조에서 정액제를 고집하는 기업이 직면하는 두 가지 선택을 명확히 짚습니다.

하나는 마진을 계속 깎아먹는 것입니다. 사용자가 AI를 더 많이 쓸수록 손해가 커지는 구조입니다. 다른 하나는 저가 요금제에서 AI 기능을 빼는 것입니다. 그러면 AI가 없던 시절보다 오히려 저가 사용자 유입이 줄어듭니다. 어떤 길을 선택해도 다음 이사회 보고에서 문제가 드러납니다.

대안으로 거론되는 세 가지 구조는 이렇습니다.

액션 단위 과금: API 호출, 에이전트 스텝마다 요금 부과. Twilio가 2008년부터 써온 방식입니다.
크레딧 방식: 선불로 크레딧을 구매하고 소진하는 구조. 여러 모델의 비용을 하나의 단위 뒤에 숨길 수 있어 유연합니다.
하이브리드: 기본 시트 요금 + 크레딧 포함 + 초과 사용 시 미터 과금. 엔터프라이즈 계약에서 가장 받아들이기 쉬운 구조로, AI 네이티브 제품들이 첫 번째 요금 개편 이후 대부분 수렴하는 형태입니다.

세 방식의 공통점은 하나입니다. 비용이 움직이면 매출도 함께 움직일 수 있는 구조라는 것. 정액제는 비용이 고정이라는 가정 위에 세워진 유일한 모델입니다.

달라지는 질문

이 흐름은 AI 기능을 설계하는 방식에도 영향을 줍니다. “어디에 AI를 붙일 수 있을까”에서 “어떤 사용이 그 추론 비용을 정당화하는가”로 질문이 바뀝니다. 쓸 수 있다고 해서 다 쓰는 게 아니라, 값어치 있는 곳에 쓰는 판단이 요구되는 시대로 이동하는 겁니다.

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI 정액제의 함정, 왜 구독 모델은 처음부터 무너질 운명이었나

단가가 내려갈수록 총비용이 올라가는 역설

GPU와 메모리 가격이 거꾸로 움직이기 시작했다

정액제의 선택지는 둘 다 나쁘다

달라지는 질문

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

RAG가 그럴듯한 답을 내놓고도 틀리는 이유, 세 도구가 보는 방식

AI 에이전트가 매번 처음부터 시작하는 이유, 정보가 아니라 재사용의 문제였다

Claude Code 리드가 “이제 프롬프트 안 짠다, 루프를 짠다”고 말한 이유

Muse Spark 1.1, 메타가 내놓은 “개인 에이전트”의 실체