AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Claude Opus 4.7 토크나이저 실측, 비용이 최대 47% 올랐다

Anthropic은 Opus 4.7 출시 때 새 토크나이저로 토큰이 “최대 35% 더 늘어날 수 있다”고 안내했습니다. 그런데 Claude Code Camp의 개발자 Abhishek Ray가 실제로 측정했더니, 공식 발표의 상한을 훌쩍 넘는 수치가 나왔습니다.

사진 출처: Claude Code Camp

Claude Code Camp 뉴스레터가 Anthropic의 무료 토큰 카운터 API(/v1/messages/count_tokens)를 활용해 Opus 4.6과 4.7의 토큰 수를 동일 콘텐츠로 직접 비교했습니다. 입력이 같아도 토크나이저가 바뀌면 비용이 달라진다는 점을 수치로 검증한 것입니다.

출처: I Measured Claude 4.7’s New Tokenizer. Here’s What It Costs You. – Claude Code Camp

“최대 35%”가 실제로는 평균값에 가깝다

측정 결과를 보면, Anthropic이 제시한 1.35x는 상한이 아니라 실질적인 중간값에 가까웠습니다.

실제 Claude Code 사용 환경에서 흔히 보내는 파일 7종을 측정한 결과입니다.

콘텐츠 유형4.6 토큰4.7 토큰비율
CLAUDE.md (5KB)1,3992,0211.45x
일반 사용자 프롬프트1,1221,5411.37x
마크다운 블로그 글1,2091,6541.37x
Git 커밋 로그9101,2231.34x
터미널 출력6528421.29x
Python 스택 트레이스1,7362,1701.25x
코드 diff1,2261,4861.21x

7종 가중 평균은 1.325x입니다. 합성 샘플 12종 실험에서는 기술 문서(영어)가 1.47x로 가장 높았고, 코드도 1.29~1.39x 범위였습니다. 반면 한국어·일본어·중국어 등 CJK 텍스트는 1.01x로 거의 변화가 없었습니다.

콘텐츠 유형에 따라 실제 비율이 1.01x부터 1.47x까지 넓게 펼쳐져 있습니다. “최대 35%”를 기준으로 예산을 짰다면 영어 중심 워크플로에서는 예상을 초과할 가능성이 있습니다.

왜 코드와 영어가 더 많이 늘어나나

측정 데이터에서 드러나는 패턴은 하나입니다. 영어와 코드는 크게 늘고, CJK는 거의 그대로입니다.

새 토크나이저는 같은 텍스트를 더 작은 단위(서브워드)로 쪼개는 방향으로 바뀐 것으로 보입니다. 영어 기준으로 글자당 토큰 수가 4.33자/토큰에서 3.60자/토큰으로 줄었고, 타입스크립트는 3.66에서 2.69로 더 크게 줄었습니다. 코드는 키워드, import 구문, 식별자처럼 반복되는 고빈도 패턴이 많은데, 기존 토크나이저가 이를 길게 묶어 처리하던 방식이 바뀐 결과로 해석됩니다.

이것이 Anthropic이 노린 트레이드오프입니다. 더 작은 단위로 쪼개면 모델이 단어 하나하나를 더 세밀하게 처리할 수 있고, 지시 따르기 정확도가 높아집니다. 실제로 IFEval 벤치마크 20개 샘플 테스트에서 Opus 4.7은 엄격 기준 통과율이 85%→90%로 소폭 올랐습니다. 작지만 실재하는 개선입니다.

세션 비용으로 환산하면

토큰 비율이 1.3x를 넘는다는 건 프롬프트 단위 이야기입니다. 80턴짜리 긴 세션에서는 누적 효과가 더 두드러집니다.

측정 결과를 토대로 80턴 Claude Code 세션을 시뮬레이션하면, 4.6 기준 약 $6.65이던 비용이 4.7에서 $7.86~$8.76로 올라 세션당 20~30% 증가합니다. 캐시 읽기가 입력 비용의 대부분을 차지하고 출력이 전체의 절반 가까이를 차지하기 때문에, 토크나이저 변화만으로 전체 비용이 이 정도 오르는 것입니다.

Claude Code Max처럼 사용량 기준으로 과금되는 요금제에서는 같은 세션이 더 빠르게 한도를 소진합니다. 5시간 윈도우 안에서 4.6으로 끝낼 수 있던 작업이 4.7에서는 부족할 수 있습니다.

한 가지 더 알아두면 좋은 점은 캐시 콜드 스타트 비용입니다. Anthropic의 프롬프트 캐시는 모델별로 분리되어 있어, 4.6에서 4.7로 전환하면 기존 캐시가 모두 무효화됩니다. 새 토크나이저로 처음 쓸 때 1.3~1.45x 더 큰 프리픽스를 처음부터 캐시에 쓰게 됩니다.

어떻게 받아들일까

추가 비용의 원인은 모델이 나빠진 게 아니라, 더 세밀하게 처리하도록 설계가 바뀐 것입니다. 코딩 벤치마크 점수(SWE-bench Pro 53.4%→64.3%), Notion·Rakuten·Cursor 등 파트너사들의 실사용 결과도 이를 뒷받침합니다. (Opus 4.7 출시 전반에 대한 내용은 이전 글에서 확인하실 수 있습니다.)

다만 비용 증가를 미리 파악하고 있어야 예산 관리나 요금제 선택에서 실수가 없습니다. 영어·코드 중심 워크플로라면 공식 발표 상한인 35%보다 실제 증가폭이 더 클 수 있다는 점, 세션 단위로 계획을 세울 때 반영할 필요가 있습니다.

측정 방법론과 콘텐츠 유형별 세부 수치는 원문에 상세하게 정리되어 있습니다.

참고자료: Best practices for using Claude Opus 4.7 with Claude Code – Anthropic


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다