AI 모델 비용이 매년 10배씩 떨어진다는 통념과 달리, 실제로는 최신 모델 가격은 그대로이고 토큰 소비량만 폭발적으로 증가해 많은 AI 스타트업들이 수익성 악화에 직면하고 있습니다.
최근 AI 업계에서 눈에 띄는 현상이 있습니다. 많은 AI 스타트업들이 예상과 달리 수익성 문제에 시달리고 있다는 점입니다. AI 모델 비용이 지속적으로 떨어진다는 낙관적 전망과는 반대로, Claude Code는 무제한 요금제를 철회했고, Windsurf는 결국 Cognition에 인수되는 상황에 이르렀습니다.
이러한 현상을 분석한 흥미로운 글이 최근 공개되었습니다. AI 업계 전문가 Ethan Ding의 분석에 따르면, AI 구독 서비스들이 직면한 문제는 단순한 비용 계산 실수가 아닙니다. 근본적으로 잘못된 가정에서 시작된 구조적 문제입니다.

잘못된 가정의 함정
대부분의 AI 스타트업들은 다음과 같은 논리로 사업을 시작했습니다. 소비자들이 월 20달러 이상 지불하지 않을 것이라는 점을 인정하면서도, A16Z의 차트가 보여주듯 LLM 비용이 매년 10배씩 떨어진다는 데이터에 의존했습니다.
그들의 계산은 간단했습니다:
- 1년차: 월 20달러로 손익분기점
- 2년차: 컴퓨팅 비용이 10배 하락하면서 90% 마진 달성
- 3년차: 요트 쇼핑
하지만 18개월이 지난 지금, 마진은 오히려 악화되었습니다. GPT-3.5는 실제로 이전보다 10배 저렴해졌지만, 아이폰 출시회에서 플립폰만큼 매력적이지 않게 되었습니다.
최신 모델의 가격은 그대로
핵심 문제는 새로운 SOTA(State-of-the-Art) 모델이 출시되면 99%의 수요가 즉시 그 모델로 이동한다는 점입니다. 사용자들은 제품에서도 이를 기대합니다.
실제 최신 모델들의 가격 변화를 살펴보면:
- GPT-4 출시 시 토큰당 60달러, GPT-3.5가 26배 저렴했음에도 모두가 GPT-4 사용
- Claude 3 Opus 출시 시에도 토큰당 60달러, GPT-4가 가격 인하했음에도 사용자들이 이동
“10배 비용 절감”은 실제로는 Commodore 64 수준의 구형 모델에만 적용되는 이야기입니다. 최고의 언어 모델에 대한 수요가 존재하는 한, 그 모델은 항상 추론 비용의 최전선에서 비슷한 가격을 유지합니다.

토큰 소비량의 핵심적 증가
더 심각한 문제는 토큰 소비량의 폭발적 증가입니다. 이전에는 ChatGPT가 한 문장 질문에 한 문장으로 답했다면, 이제 Deep Research는 3분간 계획하고, 20분간 읽고, 5분간 보고서를 다시 작성합니다. O3 모델은 “안녕하세요”라는 인사에도 20분간 실행됩니다.
강화학습과 테스트 타임 컴퓨팅의 발전으로 AI가 완료할 수 있는 작업의 길이가 6개월마다 두 배씩 증가하고 있습니다. 이전에 1,000토큰을 반환했던 작업이 이제는 100,000토큰을 반환합니다.
수학적으로 계산해보면:
- 현재: 20분 “Deep Research” 실행에 약 1달러
- 2027년 예상: 24시간 연속 실행 가능한 에이전트 → 실행당 72달러
월 20달러 구독으로는 하루 1달러짜리 Deep Research 실행조차 지원할 수 없습니다. 하지만 이것이 바로 우리가 향하고 있는 방향입니다.
Claude Code의 정교한 시도와 실패
Claude Code는 이 문제를 해결하기 위해 가장 정교한 시도를 했습니다:
1. 10배 높은 가격 책정: Cursor의 월 20달러 대비 월 200달러로 출혈이 시작되기 전 여유 확보
2. 부하에 따른 모델 자동 조정: 부하가 높을 때 Opus(토큰당 75달러)에서 Sonnet(토큰당 15달러)으로, 읽기 작업에는 Haiku로 최적화
3. 사용자 머신으로 처리 오프로딩: 자체 샌드박스 대신 사용자의 유휴 CPU 활용
이 모든 엔지니어링 기술에도 불구하고 토큰 소비량은 여전히 폭발했습니다. 한 사용자가 월 100억 토큰을 소비했는데, 이는 ‘전쟁과 평화’ 12,500권 분량입니다.
10-20분 연속 실행이 가능해지자, 사용자들은 반복 작업의 가능성을 발견했습니다. 예를 들어 “이 코드를 검토하고 개선점을 찾아 수정해줘. 그리고 다시 검토해서 또 개선해줘”와 같은 명령을 내리면, AI가 사람의 개입 없이 계속해서 작업을 반복하게 됩니다.
이제 토큰 소비량이 사람이 실제로 앱을 사용하는 시간과 무관해졌습니다. 사용자는 명령 하나만 내리고 자리를 떠나도, AI는 24시간 내내 작업을 계속 실행하며 엄청난 양의 토큰을 소비할 수 있게 된 것입니다.
결국 Anthropic은 무제한 요금제를 철회했습니다. 월 2,000달러를 시도해볼 수도 있었지만, 교훈은 충분한 요금을 책정하지 않았다는 것이 아니라 새로운 세상에서는 어떤 구독 모델로도 무제한 사용을 제공할 수 없다는 것입니다.
죄수의 딜레마
모든 AI 회사들은 사용량 기반 가격 책정이 자신들을 구원할 것임을 알고 있습니다. 동시에 그것이 자신들을 죽일 것도 알고 있습니다. 당신이 토큰당 0.01달러로 책임감 있게 사용하는 동안, VC 자금을 받은 경쟁업체는 월 20달러로 무제한을 제공합니다.
사용자들은 어디로 갈까요?
전형적인 죄수의 딜레마입니다:
- 모두가 사용량 기반 요금 → 지속 가능한 산업
- 모두가 정액 요금 → 바닥까지의 경쟁
- 당신만 사용량 기반, 다른 곳은 정액 → 당신만 죽음
- 당신만 정액, 다른 곳은 사용량 기반 → 승리 (후에 죽음)
그래서 모두가 배신합니다. 모두가 파워 유저들을 보조하고, 모두가 하키스틱 성장 차트를 올리고, 모두가 결국 “중요한 가격 업데이트”를 게시합니다.

토큰 쇼트 스퀴즈를 피하는 방법
그렇다면 이 죽음의 나선을 피할 방법이 있을까요? 세 가지 방법이 있습니다:
1. 처음부터 사용량 기반 가격 책정
보조금 없이, “지금 확보하고 나중 수익화” 없이 정직한 경제학만 적용하는 것입니다. 이론적으로는 훌륭하지만, 폭발적으로 성장하는 소비자 사용량 기반 AI 회사를 보여주세요. 소비자들은 미터기가 달린 요금제를 싫어합니다. 무제한을 위해 과다 지불하는 것을 예상치 못한 청구서를 받는 것보다 선호합니다.
2. 높은 전환 비용을 통한 고마진 확보
이것이 Devin이 올인하고 있는 전략입니다. 최근 씨티은행과 골드만삭스와의 파트너십을 발표하며, 각각 40,000명의 소프트웨어 엔지니어에게 Devin을 배포하고 있습니다.
월 20달러로 이는 1,000만 달러 프로젝트이지만, 골드만삭스로부터의 1,000만 달러 ARR과 일반 개발자들로부터의 5억 달러 중 어느 것을 선호하겠습니까? 답은 명확합니다. 6개월 구현, 컴플라이언스 리뷰, 보안 감사, 조달 지옥은 그 골드만삭스 수익을 얻기 어렵게 만들지만, 일단 얻으면 이탈이 불가능합니다.
3. 수직 통합을 통한 인프라 수익 창출
이것이 Replit의 게임입니다. 코딩 에이전트를 애플리케이션 호스팅, 데이터베이스 관리, 배포 모니터링, 로깅 등과 번들로 제공하는 것입니다. 모든 토큰에서 돈을 잃지만, 새로운 세대 개발자들을 위한 스택의 다른 모든 레이어에서 가치를 포착합니다.
천재적인 점은 코드 생성이 자연스럽게 호스팅에 대한 수요를 창출한다는 것입니다. 모든 앱은 실행할 곳이 필요하고, 모든 데이터베이스는 관리가 필요하며, 모든 배포는 모니터링이 필요합니다. OpenAI와 Anthropic이 추론을 제로로 경쟁하는 동안 다른 모든 것을 소유하는 것입니다.
업계 재편의 신호
실제로 이러한 변화의 조짐들이 나타나고 있습니다. TechCrunch 보도에 따르면, Cognition은 최근 Windsurf를 인수했습니다. Windsurf는 이전에 연매출 8,200만 달러를 달성했지만, Anthropic이 Claude 모델에 대한 직접 접근을 차단한 후 어려움을 겪었습니다.
흥미로운 점은 Cognition이 150억 달러 밸류에이션으로 자금 조달을 진행 중인 반면, ARR은 1억 달러에도 못 미친다는 것입니다. 이는 5억 달러 ARR에 100억 달러 밸류에이션인 Cursor와 대조적입니다. 8배 이상의 매출에도 불구하고 3분의 2 수준의 밸류에이션인 것입니다.
이는 VC들이 Cognition에 대해 우리가 모르는 무언가를 알고 있음을 시사합니다. 아마도 토큰 쇼트 스퀴즈에서 벗어날 방법을 찾았을 것입니다.
새로운 비즈니스 모델의 필요성
“모델이 내년에 10배 저렴해질 것”이라고 말하는 창업자들을 계속 보게 됩니다. 마치 그것이 구명정인 것처럼 말입니다. 맞습니다. 그리고 사용자들은 그들로부터 20배 더 많은 것을 기대할 것입니다. 골포스트가 당신으로부터 질주하고 있습니다.
정액 요금-무엇이든-성장 전략을 여전히 플레이하고 있는 회사들은 살아있는 죽은 회사들입니다. 그들은 단지 Q4에 매우 비싼 장례식을 예약해 놓았을 뿐입니다.
지구상에서 가장 수직 통합된 애플리케이션 레이어를 가진 Anthropic조차 무제한 사용이 포함된 정액 구독을 작동시킬 수 없습니다. 수학이 근본적으로 깨졌습니다.
앞으로의 AI 비즈니스는 단순한 구독 모델을 넘어서야 합니다. 사용량 기반 가격 책정, 높은 전환 비용을 가진 기업 고객 확보, 또는 수직 통합을 통한 다양한 수익원 확보가 필요합니다. “나중에 알아낼 것”이라는 전략은 더 이상 통하지 않습니다. 나중이란 AWS 청구서가 수익보다 큰 때를 의미하기 때문입니다.
물론 모델들은 내년에 10배 저렴해질 것입니다. 하지만 그것만으로는 충분하지 않습니다.
참고자료:
Comments