비싼 Opus 모델을 쓰지 않아도 될 날이 온 걸까요?

Anthropic이 2월 17일 Claude Sonnet 4.6을 출시했습니다. 이번 모델은 코딩, 컴퓨터 사용, 장기 추론 등 전반적인 성능을 끌어올리면서도 가격은 Sonnet 그대로(입력 $3, 출력 $15 / 백만 토큰)를 유지했습니다. 놀라운 건 실제 사용자들이 이 모델을 작년 11월의 최상위 모델인 Opus 4.5보다 더 선호한다는 점입니다.
출처: Introducing Claude Sonnet 4.6 – Anthropic
코딩 능력, Opus를 넘어서다
Claude Code에서 초기 사용자들을 대상으로 진행한 선호도 테스트 결과가 흥미롭습니다. Sonnet 4.5 대비 약 70%가 Sonnet 4.6을 선택했고, 더 나아가 Opus 4.5와 비교해서도 59%가 Sonnet 4.6 쪽을 선택했습니다.
이유로는 코드 수정 전 컨텍스트를 더 꼼꼼히 읽고, 중복 로직을 만들지 않으며, 과도한 설계나 “대충 완성했다는 식의 응답”이 적다는 점이 공통적으로 꼽혔습니다. GitHub, Cursor, Replit 같은 개발 도구 파트너들도 대규모 코드베이스 탐색과 복잡한 에이전트 작업에서 뚜렷한 개선을 확인했다고 밝혔습니다.
컴퓨터 사용, 실무 수준에 가까워지다
Anthropic이 2024년 10월 처음 선보인 컴퓨터 사용(Computer Use) 기능이 Sonnet 4.6에서 한층 더 발전했습니다. AI가 마우스 클릭과 키보드 입력으로 실제 소프트웨어를 조작하는 이 기능은, 복잡한 스프레드시트 탐색이나 여러 브라우저 탭에 걸친 멀티스텝 웹폼 작성 같은 작업에서 사람에 가까운 수준에 도달했다는 평가를 받고 있습니다.

표준 벤치마크인 OSWorld에서도 Sonnet 모델들이 지속적으로 점수를 높여왔는데, Sonnet 4.6은 그 흐름의 정점에 해당합니다. 특히 Sonnet 4.5 대비 프롬프트 인젝션 공격(웹사이트에 숨겨진 악의적 지시에 AI가 속아 넘어가는 것) 저항성도 크게 향상됐습니다.
1M 토큰 컨텍스트와 장기 추론
베타로 제공되는 100만 토큰 컨텍스트 윈도우는 기존 Sonnet의 두 배 규모입니다. 전체 코드베이스, 수십 개의 연구 논문, 방대한 계약서를 한 번에 처리할 수 있는 수준이죠. 단순히 긴 텍스트를 담는 것을 넘어, 그 안에서 효과적으로 추론하는 능력이 핵심입니다.
Vending-Bench Arena라는 시뮬레이션 평가에서 Sonnet 4.6이 보여준 전략이 이를 잘 드러냅니다. 초반 10개월은 경쟁 모델보다 훨씬 많이 투자해 생산 능력을 키운 뒤, 후반부에 과감하게 수익 집중 전략으로 전환해 1위를 차지했습니다. 장기적 맥락을 읽고 타이밍을 조율하는 능력의 단면입니다.
Sonnet이 Opus의 자리를 위협하기 시작했다
이번 출시의 핵심 메시지는 가격 대비 성능 포지셔닝입니다. Anthropic은 “과거 Opus급 성능이 필요했던 작업들을 이제 Sonnet 4.6으로 처리할 수 있다”고 밝혔습니다. 실제로 Box는 문서 추론 Q&A에서 Sonnet 4.5 대비 15%p 향상을 확인했고, Databricks는 Sonnet 4.6이 문서 이해 벤치마크(OfficeQA)에서 Opus 4.6과 동등한 성능을 보였다고 발표했습니다.
물론 Anthropic은 가장 깊은 추론이 필요한 코드베이스 리팩토링이나 복잡한 멀티에이전트 조율에는 여전히 Opus 4.6을 권장합니다. 하지만 그 경계가 계속 좁아지고 있는 건 분명합니다. 시스템 카드와 전체 벤치마크 결과는 원문에서 확인하실 수 있습니다.
참고자료:
- Anthropic releases Sonnet 4.6 – TechCrunch
- Introducing Claude Sonnet 4.6 – Simon Willison

답글 남기기