토큰맥싱 vs 컨텍스트맥싱, Uber가 4개월 만에 AI 예산을 소진하고 배운 것

2026-05-14

﹒

2 minutes

Uber는 2025년 12월 엔지니어 5,000명에게 Claude Code를 도입했습니다. 석 달 뒤인 3월, 사용자 비율은 84%에 달했고, 4월엔 연간 AI 예산이 바닥났습니다. CTO 프라빈 네팔리 나가는 “예산을 다시 짜야 할 것 같다”고 인정했습니다.

사진 출처: Briefs Finance

The Information이 처음 보도한 이 사건은 AI 코딩 도구 비용이 어떻게 걷잡을 수 없이 불어나는지를 보여주는 사례로 빠르게 확산됐습니다. 핵심은 도구가 나빠서가 아닙니다. 너무 잘 작동해서 생긴 문제입니다.

출처: Why Uber has Already Burned Through its AI Budget – AI Magazine

AI 도구가 너무 잘 작동했다

Uber 사례의 흥미로운 지점은 실패한 도입 사례가 아니라는 것입니다. 어떤 지표를 봐도 Claude Code는 성공적이었습니다. 엔지니어의 95%가 매달 AI 도구를 쓰고, 커밋 코드의 약 70%가 AI 생성입니다. 매주 1,800건의 코드 변경이 AI 에이전트 단독으로 이루어집니다.

문제는 이 성공이 비용 모델을 완전히 벗어났다는 점입니다. Claude Code는 사용량에 따라 과금되는 구조입니다. 엔지니어 한 명이 단순한 질의응답이 아니라 코드베이스 전체를 훑고, 병렬로 에이전트를 실행하고, 대규모 리팩토링을 반복적으로 돌리면 월 API 비용이 500~2,000달러에 달합니다. 5,000명 규모에서 이 숫자가 누적되면 어떤 예산 계획도 따라잡기 어렵습니다.

Uber는 내부 리더보드까지 운영했습니다. 팀별 AI 도구 사용량을 순위로 매기는 방식이었는데, 이것이 사용을 더 가속시켰습니다. 개인에게 소비를 줄여야 할 이유가 없었습니다.

토큰을 많이 쓸수록 더 잘하는 걸까

이 현상에는 이름이 생겼습니다. ‘토큰맥싱(tokenmaxxing)’. AI 토큰 소비를 최대화하는 것이 곧 생산성의 증거라는 인식에서 나온 문화입니다.

Meta에서도 비슷한 일이 있었습니다. ‘Claudeonomics’라는 내부 리더보드가 유출됐는데, 85,000명의 직원을 토큰 소비량으로 줄 세우고 ‘Token Legend’ 같은 배지를 부여했습니다. 한 달에 소비된 토큰이 60조 개였고, 공개 API 기준으로 환산하면 약 9억 달러 어치였습니다. 리더보드는 유출 48시간 만에 내려갔습니다.

비판이 나오는 이유가 여기 있습니다. 토큰을 많이 쓴다는 것과 좋은 결과를 낸다는 것은 다릅니다. Uber 예산 문제도 따지고 보면 낭비의 문제이기도 합니다. AI 에이전트가 한 작업을 다른 에이전트가 다음 날 처음부터 다시 수행하는 식으로, 이미 알고 있는 정보를 반복해서 재구성하는 데 토큰이 쓰이는 경우가 많습니다.

토큰맥싱의 반대말, 컨텍스트맥싱

토큰맥싱의 대안으로 나온 개념이 ‘컨텍스트맥싱(contextmaxxing)’입니다. AI 행동 한 번당 얼마나 많은 토큰을 쓰느냐가 아니라, AI가 행동하기 전에 얼마나 적절한 컨텍스트를 제공하느냐를 최대화하는 접근입니다.

차이는 에이전트가 작업을 시작하는 순간에 드러납니다. 컨텍스트 없이 시작한 에이전트는 먼저 현재 상황을 파악하는 데 토큰을 씁니다. 코드베이스가 왜 이렇게 생겼는지, 이 마이그레이션은 어떤 결정에서 비롯됐는지, 이 제약이 어디서 왔는지를 추론하는 시간입니다. 잘 정리된 컨텍스트가 있다면 이 구간이 짧아집니다. 에이전트가 재발견에 토큰을 쓰는 게 아니라 실제 판단과 실행에 토큰을 쓸 수 있습니다.

개발자가 직접 통제할 수 있는 부분이 여기 있습니다. 작업 지시 방식, 컨텍스트 파일 구성, 세션 간 정보 인계 방식입니다. 에이전트에게 같은 배경을 매번 다시 설명하는 대신 처음부터 올바른 출발점을 제공하는 것. 토큰을 덜 쓰면서도 더 정확한 결과를 얻는 방향이 여기서 나옵니다.

다음 기업이 겪을 일

Uber 사례는 AI 도구가 이제 ‘써도 괜찮은’ 단계를 넘어 비용 구조의 일부가 됐다는 신호입니다. 2010년대 초 클라우드 도입 초기에 AWS 청구서가 예상의 세 배로 날아들었던 것처럼, 많은 조직이 지금 AI 코딩 도구에서 같은 학습 곡선을 밟고 있습니다. 토큰 가격이 내려가도 에이전트 사용량은 그보다 빠르게 늘어날 가능성이 높습니다.

Uber는 현재 OpenAI의 Codex를 추가 테스트하며 스택을 다변화하는 방향을 검토 중입니다. 단일 도구 의존도를 줄이는 것도 하나의 전략이지만, 더 근본적인 질문은 남습니다. 토큰을 얼마나 쓰느냐보다, 그 토큰이 무엇에 쓰이느냐.

참고자료:

Uber Exhausts Full AI Coding Budget in Four Months as Usage Explodes – AI2Work
Uber Spends Full 2026 AI Budget in 4 Months – Briefs Finance
Contextmaxxing > Tokenmaxxing: Why Better Memory Beats Burning More Tokens – Ashwin Gopinath (X)

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

토큰맥싱 vs 컨텍스트맥싱, Uber가 4개월 만에 AI 예산을 소진하고 배운 것

AI 도구가 너무 잘 작동했다

토큰을 많이 쓸수록 더 잘하는 걸까

토큰맥싱의 반대말, 컨텍스트맥싱

다음 기업이 겪을 일

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

구글 AI 매출 800% 성장, 진짜 신호는 4600억 달러 백로그에 있다

AI가 구글에서 50만 달러어치 취약점을 찾았다, 비결은 똑똑함이 아니었다

AI 모델을 한 팀으로 묶었더니, 단일 최강 모델보다 똑똑해졌다

OpenAI Patch the Planet, 23년 묵은 버그도 잡아낸 AI 보안 실험