Anthropic은 Opus 4.7 출시 때 새 토크나이저로 토큰이 “최대 35% 더 늘어날 수 있다”고 안내했습니다. 그런데 Claude Code Camp의 개발자 Abhishek Ray가 실제로 측정했더니, 공식 발표의 상한을 훌쩍 넘는 수치가 나왔습니다.

Claude Code Camp 뉴스레터가 Anthropic의 무료 토큰 카운터 API(/v1/messages/count_tokens)를 활용해 Opus 4.6과 4.7의 토큰 수를 동일 콘텐츠로 직접 비교했습니다. 입력이 같아도 토크나이저가 바뀌면 비용이 달라진다는 점을 수치로 검증한 것입니다.
출처: I Measured Claude 4.7’s New Tokenizer. Here’s What It Costs You. – Claude Code Camp
“최대 35%”가 실제로는 평균값에 가깝다
측정 결과를 보면, Anthropic이 제시한 1.35x는 상한이 아니라 실질적인 중간값에 가까웠습니다.
실제 Claude Code 사용 환경에서 흔히 보내는 파일 7종을 측정한 결과입니다.
| 콘텐츠 유형 | 4.6 토큰 | 4.7 토큰 | 비율 |
|---|---|---|---|
| CLAUDE.md (5KB) | 1,399 | 2,021 | 1.45x |
| 일반 사용자 프롬프트 | 1,122 | 1,541 | 1.37x |
| 마크다운 블로그 글 | 1,209 | 1,654 | 1.37x |
| Git 커밋 로그 | 910 | 1,223 | 1.34x |
| 터미널 출력 | 652 | 842 | 1.29x |
| Python 스택 트레이스 | 1,736 | 2,170 | 1.25x |
| 코드 diff | 1,226 | 1,486 | 1.21x |
7종 가중 평균은 1.325x입니다. 합성 샘플 12종 실험에서는 기술 문서(영어)가 1.47x로 가장 높았고, 코드도 1.29~1.39x 범위였습니다. 반면 한국어·일본어·중국어 등 CJK 텍스트는 1.01x로 거의 변화가 없었습니다.
콘텐츠 유형에 따라 실제 비율이 1.01x부터 1.47x까지 넓게 펼쳐져 있습니다. “최대 35%”를 기준으로 예산을 짰다면 영어 중심 워크플로에서는 예상을 초과할 가능성이 있습니다.
왜 코드와 영어가 더 많이 늘어나나
측정 데이터에서 드러나는 패턴은 하나입니다. 영어와 코드는 크게 늘고, CJK는 거의 그대로입니다.
새 토크나이저는 같은 텍스트를 더 작은 단위(서브워드)로 쪼개는 방향으로 바뀐 것으로 보입니다. 영어 기준으로 글자당 토큰 수가 4.33자/토큰에서 3.60자/토큰으로 줄었고, 타입스크립트는 3.66에서 2.69로 더 크게 줄었습니다. 코드는 키워드, import 구문, 식별자처럼 반복되는 고빈도 패턴이 많은데, 기존 토크나이저가 이를 길게 묶어 처리하던 방식이 바뀐 결과로 해석됩니다.
이것이 Anthropic이 노린 트레이드오프입니다. 더 작은 단위로 쪼개면 모델이 단어 하나하나를 더 세밀하게 처리할 수 있고, 지시 따르기 정확도가 높아집니다. 실제로 IFEval 벤치마크 20개 샘플 테스트에서 Opus 4.7은 엄격 기준 통과율이 85%→90%로 소폭 올랐습니다. 작지만 실재하는 개선입니다.
세션 비용으로 환산하면
토큰 비율이 1.3x를 넘는다는 건 프롬프트 단위 이야기입니다. 80턴짜리 긴 세션에서는 누적 효과가 더 두드러집니다.
측정 결과를 토대로 80턴 Claude Code 세션을 시뮬레이션하면, 4.6 기준 약 $6.65이던 비용이 4.7에서 $7.86~$8.76로 올라 세션당 20~30% 증가합니다. 캐시 읽기가 입력 비용의 대부분을 차지하고 출력이 전체의 절반 가까이를 차지하기 때문에, 토크나이저 변화만으로 전체 비용이 이 정도 오르는 것입니다.
Claude Code Max처럼 사용량 기준으로 과금되는 요금제에서는 같은 세션이 더 빠르게 한도를 소진합니다. 5시간 윈도우 안에서 4.6으로 끝낼 수 있던 작업이 4.7에서는 부족할 수 있습니다.
한 가지 더 알아두면 좋은 점은 캐시 콜드 스타트 비용입니다. Anthropic의 프롬프트 캐시는 모델별로 분리되어 있어, 4.6에서 4.7로 전환하면 기존 캐시가 모두 무효화됩니다. 새 토크나이저로 처음 쓸 때 1.3~1.45x 더 큰 프리픽스를 처음부터 캐시에 쓰게 됩니다.
어떻게 받아들일까
추가 비용의 원인은 모델이 나빠진 게 아니라, 더 세밀하게 처리하도록 설계가 바뀐 것입니다. 코딩 벤치마크 점수(SWE-bench Pro 53.4%→64.3%), Notion·Rakuten·Cursor 등 파트너사들의 실사용 결과도 이를 뒷받침합니다. (Opus 4.7 출시 전반에 대한 내용은 이전 글에서 확인하실 수 있습니다.)
다만 비용 증가를 미리 파악하고 있어야 예산 관리나 요금제 선택에서 실수가 없습니다. 영어·코드 중심 워크플로라면 공식 발표 상한인 35%보다 실제 증가폭이 더 클 수 있다는 점, 세션 단위로 계획을 세울 때 반영할 필요가 있습니다.
측정 방법론과 콘텐츠 유형별 세부 수치는 원문에 상세하게 정리되어 있습니다.
참고자료: Best practices for using Claude Opus 4.7 with Claude Code – Anthropic

답글 남기기