Claude Sonnet 4.5, AI 코딩 모델의 새로운 챔피언

Anthropic이 출시한 Claude Sonnet 4.5가 실제 소프트웨어 개발 능력을 측정하는 SWE-bench Verified에서 70.6%를 기록하며 GPT-5를 제치고 1위에 올랐습니다. 더 주목할 점은 30시간 이상 자율적으로 코딩 작업을 수행할 수 있다는 실험 결과입니다.

Claude Sonnet 4.5의 SWE-bench Verified 벤치마크 성능 (출처: Anthropic)

벤치마크를 넘어선 실전 성능

SWE-bench Verified는 실제 GitHub의 이슈를 해결하는 능력을 측정하는 테스트입니다. Claude Sonnet 4.5는 77.2%를 기록했습니다. 이는 지난 5월 출시된 Claude Opus 4의 67.6%를 크게 앞서는 수치입니다. GPT-5는 65%로 3위에 머물렀습니다.

벤치마크 수치보다 흥미로운 건 실제 사용 경험입니다. AI 개발자 Simon Willison은 주말 동안 Claude Sonnet 4.5를 테스트하며 놀라운 실험을 진행했습니다. 그는 자신의 오픈소스 프로젝트 LLM에 대해 다음과 같은 복잡한 과제를 제시했습니다.

“SQLite 데이터베이스의 대화 구조를 선형에서 트리 구조로 변경해보세요. parent_response_id 컬럼을 추가하고, 새로운 pytest 테스트를 작성해 설계를 검증하세요.”

결과는 놀라웠습니다. Claude Sonnet 4.5는 수십 번의 도구 호출을 통해 데이터베이스 마이그레이션 코드를 작성하고, 12개의 유틸리티 함수를 구현했으며, 16개의 테스트를 작성해 모두 통과시켰습니다. 코드 작성부터 테스트, 문서화까지 전체 과정을 자율적으로 수행한 것입니다.

Claude Sonnet 4.5가 생성한 펠리칸 자전거 이미지 (출처: Simon Willison)

컴퓨터 사용 능력의 비약적 발전

코딩 능력 못지않게 눈에 띄는 건 컴퓨터 제어 능력입니다. 실제 컴퓨터 작업을 수행하는 OSWorld 벤치마크에서 Claude Sonnet 4.5는 61.4%를 기록했습니다. 4개월 전 이전 모델이 42.2%를 기록했던 것과 비교하면 45% 이상 향상된 수치입니다.

이런 개선은 실제 업무 환경에서 의미있는 변화를 만들어냅니다. GitHub Copilot 팀은 “다단계 추론과 코드 이해 능력이 크게 향상돼 복잡한 코드베이스 전체를 다루는 작업을 더 잘 처리한다”고 평가했습니다. Cursor 팀 역시 “장기 작업에서 최첨단 코딩 성능을 보여준다”며 많은 개발자들이 가장 복잡한 문제를 해결할 때 Claude를 선택하는 이유를 강조했습니다.

산업별 실전 배치 사례

Claude Sonnet 4.5의 영향력은 단순히 코딩 영역에 그치지 않습니다. 다양한 산업에서 구체적인 성과가 보고되고 있습니다.

보안 분야에서 Hai 팀은 보안 에이전트의 취약점 처리 시간이 평균 44% 단축됐고 정확도는 25% 향상됐다고 밝혔습니다. 법률 분야에선 Harvey가 “가장 복잡한 소송 업무에서 최첨단 성능을 보인다”며 전체 소송 기록을 분석해 상세한 약식 판결 분석을 작성하는 사례를 소개했습니다.

금융 분야의 변화도 주목할 만합니다. Vals AI가 운영하는 Finance Agent 벤치마크에서 Claude Sonnet 4.5는 extended thinking 모드를 활용해 투자 등급의 인사이트를 제공하는 것으로 평가받았습니다. 리스크 분석, 구조화 상품, 포트폴리오 스크리닝 같은 복잡한 금융 분석에서 사람의 검토가 덜 필요한 수준의 결과물을 만들어냈습니다.

개발 도구 영역에서도 눈에 띄는 변화가 있습니다. Replit는 코드 편집 오류율이 Sonnet 4에서 9%였던 것이 Sonnet 4.5에서 0%로 개선됐다고 보고했습니다. Devin은 계획 수립 성능이 18%, 전체 평가 점수가 12% 향상됐다며 “Claude Sonnet 3.6 출시 이후 가장 큰 도약”이라고 평가했습니다.

Claude Sonnet 4.5의 정렬 성능 개선 (출처: Anthropic)

가격과 접근성

Claude Sonnet 4.5의 가격은 이전 모델과 동일하게 유지됩니다. 입력 토큰 100만 개당 3달러, 출력 토큰은 15달러입니다. 이는 Claude Opus의 15달러/75달러보다 훨씬 저렴하지만, GPT-5와 GPT-5-Codex의 1.25달러/10달러와 비교하면 여전히 높은 편입니다.

다만 가격만으로 단순 비교하긴 어렵습니다. 성능이 더 우수하다면 같은 작업을 더 빠르게 완료해 전체 비용이 낮아질 수 있기 때문입니다. Anthropic은 모델을 Claude Code, GitHub Copilot, Cursor, OpenRouter 등 주요 플랫폼에 동시 배포하며 접근성을 높이고 있습니다.

흥미로운 점은 Anthropic이 Claude Code를 만들며 축적한 인프라를 Claude Agent SDK로 공개했다는 것입니다. 이제 개발자들은 메모리 관리, 권한 시스템, 서브에이전트 조정 같은 복잡한 문제에 대한 검증된 솔루션을 직접 활용할 수 있습니다. TypeScript와 Python 버전이 모두 제공됩니다.

AI 코딩 도구의 현재와 미래

Claude Sonnet 4.5의 등장은 AI 코딩 도구 시장의 경쟁이 얼마나 치열한지 보여줍니다. Simon Willison은 “이 분야는 정말 빠르게 움직인다”며 “Gemini 3가 곧 출시될 것으로 예상되는데, Claude Sonnet 4.5가 ‘최고의 코딩 모델’ 타이틀을 얼마나 오래 유지할지 모르겠다”고 말했습니다.

실제로 몇 주 전만 해도 GPT-5-Codex가 가장 선호되는 코딩 모델이었습니다. 하지만 지금은 상황이 달라졌습니다. 중요한 건 단순히 어떤 모델이 1위인가가 아닙니다. AI 코딩 도구들이 이제 30시간 이상 자율적으로 작업을 수행하고, 전체 코드베이스를 이해하며, 복잡한 아키텍처 결정을 내릴 수 있는 수준에 도달했다는 사실입니다.

개발자들의 작업 방식이 근본적으로 바뀌고 있습니다. 코드 작성을 넘어 설계, 테스트, 문서화까지 AI가 담당하는 시대가 시작됐습니다. Claude Sonnet 4.5는 그 변화의 중요한 이정표입니다.

참고자료:

Introducing Claude Sonnet 4.5 – Anthropic
Claude Sonnet 4.5 is probably the “best coding model in the world” (at least for now) – Simon Willison
SWE-bench Leaderboards

Like?

AI Sparkup

Claude Sonnet 4.5, AI 코딩 모델의 새로운 챔피언

벤치마크를 넘어선 실전 성능

컴퓨터 사용 능력의 비약적 발전

산업별 실전 배치 사례

가격과 접근성

AI 코딩 도구의 현재와 미래

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

DeepSeek DSpark, 하드웨어 안 바꾸고 AI 응답속도 85% 올린 방법

Claude 커넥터가 읽는 데이터, 전체의 5%도 안 된다

구글 나노바나나 2 라이트, 이미지 한 장 4초 0.034달러로 끝낸다

회사 하나를 500일 맡겼더니, AI 14개 중 11개가 파산했다