AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Claude Code 비용이 예상보다 훨씬 많이 나오는 4가지 이유

월 €180짜리 Claude Code Max 플랜을 쓰는데, 한 달 전 동일한 워크플로에 €1,184(약 190만 원)를 썼다는 사람이 있습니다. 모델을 바꾼 것도 아니고, 작업 세션을 줄인 것도 아닙니다. 그런데 어디서 그 차이가 났을까요?

Claude Code 비용 최적화
사진 출처: Product Compass

Claude Code는 쓰는 방식에 따라 비용이 극단적으로 달라지는 도구입니다. Anthropic이 최근 버그 3건을 수정해 일부 사용자의 비정상적 과금 문제를 해결했지만, 사용자 쪽에서 제어할 수 있는 근본 원인은 여전히 남아 있습니다. Product Compass의 Pawel Huryn이 2주간의 실전 테스트를 통해 비용 급등의 4가지 구조적 원인을 분석했습니다.

출처: Claude Code Limits: 4 Fixes to Cut Your Bill – Product Compass (Pawel Huryn)

캐시가 작동하지 않으면 모든 게 다시 과금된다

Claude Code는 프롬프트 캐시 시스템을 활용합니다. 한 번 처리한 입력 프리픽스(시스템 프롬프트, 도구 목록 등)를 저장해 두고, 이후 요청에서 재사용하면 요금이 기본 입력 가격의 10분의 1 수준으로 떨어집니다. 세션이 길어질수록 이 절감 효과는 누적됩니다.

문제는 캐시가 예상보다 쉽게 깨진다는 점입니다. 세션 중간에 도구를 추가하거나 제거하면, 혹은 모델을 전환하면 캐시 프리픽스 전체가 무효화되어 다시 전액이 과금됩니다. Huryn이 정리한 핵심 규칙은 단순합니다. 세션 시작 시 도구와 모델을 고정하고, 절대 중간에 바꾸지 말 것. MCP 서버도 마찬가지입니다.

건강한 캐시 히트율은 5분 TTL 기준 약 90%입니다. 이 수치를 추적하지 않으면 비효율을 발견할 방법이 없습니다.

컨텍스트가 부풀수록 비용도 함께 부푼다

Claude Code에서 Opus 모델의 기본 컨텍스트 윈도우는 100만 토큰입니다. 세션이 길어질수록 컨텍스트는 자동으로 팽창하고, 이 모든 토큰이 과금 대상이 됩니다. 자동 압축(auto-compact) 기능이 있긴 하지만, 이것이 작동하는 시점이 이미 컨텍스트가 한껏 불어난 이후라는 게 문제입니다.

Huryn이 제안하는 접근은 200K 컨텍스트로 제한하고, 자동 압축을 기다리지 않고 작업 단위별로 미리 압축하는 것입니다. 서로 관련 없는 작업 사이에서는 세션 자체를 초기화해 새 프리픽스로 시작하는 편이 낫습니다.

하위 에이전트(subagent) 구조도 같은 맥락에서 유효합니다. 병렬화 가능하거나 범위가 좁은 작업은 별도의 경량 에이전트에 위임하면 부모 컨텍스트를 깔끔하게 유지할 수 있습니다. 부모에게는 200단어짜리 요약이 돌아오고, 수백 페이지짜리 PDF 전문은 부모의 컨텍스트를 건드리지 않습니다.

모델과 추론 설정이 기본값으로 고정돼 있다

Claude Code는 기본적으로 추론(extended thinking)을 활성화합니다. 그런데 이 설정이 모든 프롬프트에 일괄 적용되면 토큰 소비가 약 2배까지 늘어납니다. Huryn의 분석에 따르면, 높은 추론 강도가 실제로 필요한 상황은 전체 작업 중 일부에 불과합니다. 세션 전체가 아니라 필요한 프롬프트 단위로만 추론 수준을 올리는 것이 효율적입니다.

모델 선택도 같은 원리입니다. Opus 세션을 열어 두면 하위 작업까지 모두 Opus 과금이 발생합니다. 계획과 판단이 필요한 작업은 Opus에 맡기고, 기계적이거나 범위가 명확한 작업은 Sonnet이나 Haiku로 위임하는 혼합 구조가 비용을 낮춥니다.

입력 형식 자체가 토큰을 낭비하고 있다

Claude Code가 웹 페이지를 탐색할 때 기본적으로 렌더링된 화면을 스크린샷으로 찍습니다. 이미지 기반 처리는 텍스트 기반에 비해 토큰 소비가 훨씬 많습니다. PDF를 Read 도구로 열면 이미지로 변환되어 처리되는 것도 마찬가지입니다. 접근성 트리(accessibility tree)를 활용하는 브라우저 도구나 텍스트 추출 방식으로 전환하면 동일한 작업에서 토큰 소비를 크게 줄일 수 있습니다.

코드베이스 전체를 매 작업마다 다시 읽는 것도 숨은 비용입니다. 코드 구조를 그래프로 미리 매핑해두고 필요한 부분만 선택적으로 읽는 방식이 특정 작업에서 눈에 띄는 토큰 절감으로 이어집니다.

비용은 구조의 문제다

Huryn의 분석이 흥미로운 이유는 특정 팁보다 구조적 시각을 제공한다는 데 있습니다. Claude Code의 비용은 ‘얼마나 많이 쓰느냐’보다 ‘어떤 방식으로 쓰느냐’에 훨씬 크게 좌우됩니다. 캐시 히트율, 컨텍스트 크기, 모델과 추론 수준의 분배, 입력 형식이라는 네 가지 레버를 이해하면 동일한 작업량에서 비용 구조 자체가 달라집니다.

구체적인 설정값, CLAUDE.md 템플릿, 추천 도구 목록은 원문에서 확인할 수 있습니다.

참고자료: Anthropic April 23 Claude Code Postmortem


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다