
Anthropic가 Claude Code에 법률 업무 플러그인을 추가했을 때 Thomson Reuters의 주가는 5일 동안 20% 급락했습니다. S&P 500 소프트웨어 지수는 9% 하락했고요. 그리고 2월 5일, Anthropic는 Claude Opus 4.6를 출시하며 이번엔 금융 분석 기능까지 추가했습니다. 시장의 반응은? FactSet과 S&P Global 같은 금융 리서치 기업들의 주가가 다시 흔들리기 시작했죠.
출처: Introducing Claude Opus 4.6 – Anthropic
여러 에이전트가 팀으로 일한다
Claude Opus 4.6의 가장 큰 변화는 ‘Agent Teams’입니다. 이제 Claude는 하나의 작업을 여러 에이전트로 나눠 병렬로 처리할 수 있습니다. 마치 실제 개발팀처럼 각자 맡은 부분을 독립적으로 작업하면서 서로 조율하는 방식이죠.
Anthropic의 제품 책임자 Scott White는 “재능 있는 인간 팀이 당신을 위해 일하는 것과 비슷하다”고 설명했습니다. 에이전트들이 순차적으로 작업하는 대신 동시에 움직이니 속도가 훨씬 빠르고요. 코드베이스 리뷰처럼 여러 부분을 독립적으로 읽고 분석해야 하는 작업에 특히 효과적입니다.
Rakuten의 사례가 흥미롭습니다. Claude Opus 4.6는 하루 만에 13개 이슈를 해결하고 12개 이슈를 적절한 팀원에게 할당했습니다. 6개 리포지토리에 걸친 약 50명 규모 조직을 관리하면서 제품 결정과 조직 결정을 동시에 내렸고, 사람에게 에스컬레이션해야 할 시점도 판단했죠.

벤치마크가 증명한 격차
숫자로 보면 더 명확합니다. 지식 업무 성능을 측정하는 GDPval-AA에서 Claude Opus 4.6는 GPT-5.2보다 144 Elo 포인트 높은 점수를 기록했습니다. 이는 두 모델이 맞붙었을 때 Opus 4.6가 약 70%의 확률로 이긴다는 뜻입니다.
에이전트 코딩 평가인 Terminal-Bench 2.0에서는 업계 1위를 차지했고, 복잡한 다학제 추론 테스트인 Humanity’s Last Exam에서도 모든 프론티어 모델을 앞섰습니다. 온라인에서 찾기 어려운 정보를 찾아내는 능력을 측정하는 BrowseComp에서도 최고 점수를 기록했죠.
특히 주목할 점은 법률 추론 벤치마크 BigLaw Bench에서 90.2%를 달성했다는 겁니다. Harvey의 평가에 따르면 40%는 완벽한 점수였고, 84%가 0.8점 이상이었습니다.
그리고 한 달 전 TechCrunch가 보도한 Mercor의 APEX-Agents 벤치마크 결과도 있습니다. 당시 모든 주요 AI 기업의 점수가 25% 미만이어서 “변호사들은 당분간 안전하다”는 결론이었는데요. Claude Opus 4.6는 원샷 테스트에서 29.8%, 여러 번 시도했을 때는 평균 45%를 기록했습니다. 불과 몇 개월 만에 18.4%에서 29.8%로 뛴 거죠. Mercor CEO Brendan Foody는 “미친 수준의 도약”이라고 평가했습니다.
컨텍스트 로트 문제를 해결하다
Claude Opus 4.6는 Anthropic의 첫 1M 토큰 컨텍스트를 지원하는 Opus급 모델입니다. 하지만 단순히 컨텍스트 윈도우가 크다고 끝이 아닙니다. 실제로 그 긴 컨텍스트를 얼마나 잘 활용하느냐가 중요하죠.
AI 모델의 고질적인 문제 중 하나가 ‘컨텍스트 로트(context rot)’입니다. 대화가 길어지면 성능이 떨어지는 현상인데요. 8-needle 1M 변형 MRCR v2 벤치마크에서 Claude Opus 4.6는 76%를 기록한 반면, Claude Sonnet 4.5는 18.5%에 그쳤습니다. 방대한 텍스트 속에 숨겨진 정보를 찾는 능력에서 질적인 차이를 보인 거죠.
Thomson Reuters는 “Claude Opus 4.6가 긴 컨텍스트 성능에서 의미 있는 도약을 이뤘다”며 “훨씬 더 큰 정보 덩어리를 일관되게 처리하는 모습을 봤고, 이는 복잡한 리서치 워크플로우를 설계하고 배포하는 방식을 강화한다”고 평가했습니다.
Excel과 PowerPoint로 확장
Anthropic는 이번 출시와 함께 Excel 통합을 대폭 개선하고 PowerPoint 통합을 리서치 프리뷰로 공개했습니다. Claude가 이제 비정형 데이터를 읽고 적절한 구조를 스스로 추론하며, 여러 단계의 변경을 한 번에 처리할 수 있다는 뜻입니다.
PowerPoint에서는 레이아웃, 폰트, 슬라이드 마스터를 읽어 브랜드 일관성을 유지하면서 템플릿 기반 작업이나 전체 덱 생성을 지원합니다. Excel에서 데이터를 처리하고 구조화한 다음 PowerPoint로 가져가 시각화하는 워크플로우가 가능해진 거죠.
Box는 “법률, 금융, 기술 콘텐츠에 걸친 다중 소스 분석 같은 높은 추론 작업에서 탁월하다”며 자체 평가에서 기준 58% 대비 68%로 10% 향상을 확인했다고 밝혔습니다.
AI 자동화가 현실이 된 순간
주식시장의 반응은 AI 자동화에 대한 공포가 단순한 과장이 아니라는 걸 보여줍니다. Reuters 보도에 따르면 Quilter Cheviot의 기술 리서치 책임자 Ben Barringer는 “아직 AI 에이전트가 소프트웨어 기업들을 파괴할 지점은 아니다”라면서도 보안, 데이터 소유권 같은 우려가 남아 있다고 지적했습니다.
JP Morgan의 애널리스트 Mark Murphy는 더 신중합니다. “Claude Cowork 플러그인이나 비슷한 개인 생산성 도구를 보고, 모든 기업이 이제 미션 크리티컬한 엔터프라이즈 소프트웨어의 모든 계층을 대체할 맞춤형 제품을 만들고 유지할 거라고 예상하는 건 비논리적 도약처럼 느껴진다”고 말했죠.
실제로 MIT 연구는 AI를 워크플로우에 통합한 기업들이 의미 있는 매출 증가를 보지 못했다고 밝혔고, 생산성 향상도 관찰되지 않았습니다. 법률 분야에서는 AI 도구가 출처를 잘못 인용하거나 판례를 조작해서 변호사들이 판사 앞에서 곤란을 겪은 사례도 여럿 있습니다.
하지만 Claude Opus 4.6의 성능 개선 속도와 실제 활용 사례들은 그 간극이 빠르게 좁혀지고 있음을 시사합니다. 적어도 시장은 그렇게 믿고 있는 것 같습니다.
참고자료:
- Maybe AI agents can be lawyers after all – TechCrunch
- Anthropic Just Sent Shockwaves Through the Entire Stock Market – Futurism
- Anthropic’s Claude Opus 4.6 gains financial research, improved coding features – Sherwood News
- Anthropic debuts new model with hopes to corner the market beyond coding – The Verge

답글 남기기