Claude Sonnet 5, Opus보다 싸다더니 실제 비용은 15% 높았다

Anthropic은 Claude Sonnet 5의 토큰 가격을 낮췄다고 밝혔지만, 독립 벤치마크 기관이 재본 실제 작업 비용은 Opus 4.8보다 15% 더 비쌌습니다.

사진 출처: Anthropic

Anthropic이 이번 주 공개한 Claude Sonnet 5는 이전 세대보다 훨씬 에이전틱한 모델로 소개됐고, 도입 가격도 입력 100만 토큰당 2달러, 출력 100만 토큰당 10달러로 Opus 4.8보다 저렴하게 책정됐습니다. 그런데 AI 모델 평가기관 Artificial Analysis가 정가 기준(3달러/15달러)으로 작업 하나를 끝내는 데 드는 실제 비용을 측정하자, Sonnet 5가 Opus 4.8보다 오히려 더 비싸다는 결과가 나왔습니다. 원인은 단가가 아니라 사용량에 있었습니다.

출처: Introducing Claude Sonnet 5 – Anthropic

더 똑똑해진 대신 더 많이 일한다

Sonnet 5는 계획을 세우고, 브라우저나 터미널 같은 도구를 스스로 다루고, 별도 지시 없이도 자기 결과물을 검증하는 식으로 작동합니다. Anthropic은 이 모델의 성능이 Opus 4.8에 근접했다고 설명했는데, 실제로 에이전틱 지식노동 평가(AA-Briefcase, GDPval-AA)에서는 Sonnet 5가 Opus 4.8을 앞서는 결과도 나왔습니다. 문제는 이 성능 향상이 공짜가 아니었다는 겁니다. Sonnet 5는 같은 문제를 풀 때 Sonnet 4.6보다 약 40% 많은 출력 토큰을 쓰고, 지식노동 평가에서는 에이전틱 턴(모델이 도구를 호출하고 결과를 확인하는 한 번의 주고받음) 수가 약 3배 늘었습니다. 모델이 더 똑똑해진 게 아니라, 더 오래 붙잡고 더 여러 번 확인하면서 일하는 쪽으로 발전한 셈입니다.

토큰 단가와 작업 비용은 다른 숫자다

여기서 나오는 게 ‘작업량(effort)’이라는 설정값입니다. Sonnet 5는 Opus 4.8과 동일하게 low부터 max까지 다섯 단계의 작업량 레벨을 제공하는데, 레벨이 올라갈수록 모델이 더 신중하게, 더 많은 단계를 거쳐 답을 냅니다. Artificial Analysis 측정에 따르면 GDPval-AA 평가에서 max 작업량은 low 작업량보다 턴 수를 약 6배까지 쓴다고 합니다. 결과적으로 Intelligence Index 기준 작업당 비용은 Sonnet 5가 2.29달러로, Sonnet 4.6의 약 2배, Opus 4.8보다 15% 높은 수치가 나왔습니다. 다만 이 계산은 정가(3달러/15달러) 기준이고, Sonnet 5는 2026년 8월 31일까지 도입가(2달러/10달러)로 제공되기 때문에 지금 당장 체감하는 격차는 이보다 작을 수 있습니다. 어느 쪽이든, 토큰 단가만 보고 “더 싸다”고 판단하면 틀릴 수 있다는 이야기입니다. 작업 하나를 끝내는 데 실제로 얼마나 많은 토큰과 턴을 쓰는지가 최종 비용을 결정하니까요.

그래도 모든 영역에서 이긴 건 아니다

에이전틱 지식노동에서는 앞섰지만, 물리학 추론 벤치마크인 CritPt처럼 무거운 지식·추론 과제에서는 여전히 Opus 4.8에 뒤처집니다. Sonnet 4.6보다 14포인트 올랐다고는 해도, GLM-5.2나 GPT-5.5(xhigh) 같은 다른 모델들에도 못 미치는 수준입니다. 즉 Sonnet 5는 도구를 다루고 여러 단계를 거쳐 결과물을 만드는 작업에서는 강하지만, 순수하게 어려운 추론이나 방대한 지식이 필요한 과제라면 여전히 상위 모델을 찾는 게 나을 수 있습니다.

결국 모델을 고를 때 봐야 할 건 가격표에 적힌 토큰 단가 하나가 아니라, 그 모델이 내 작업을 몇 번의 턴과 얼마만큼의 토큰으로 끝내는가라는 실제 사용 패턴인 셈입니다.

참고자료: Claude Sonnet 5: strong agentic performance at a higher cost per task – Artificial Analysis

Like?

AI Sparkup

Claude Sonnet 5, Opus보다 싸다더니 실제 비용은 15% 높았다

더 똑똑해진 대신 더 많이 일한다

토큰 단가와 작업 비용은 다른 숫자다

그래도 모든 영역에서 이긴 건 아니다

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Claude Sonnet 5, Opus보다 싸다더니 실제 비용은 15% 높았다

Ford가 AI 대신 베테랑 엔지니어 350명을 다시 부른 이유

AI 에이전트는 왜 매번 처음부터 시작할까, 메모리 설계의 7가지 갈래

로컬 LLM으로 코딩하는 시대, Qwen 3.6 27B가 노트북에서 프런티어급에 닿다