AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Claude Opus 4.6 등장, 500개 제로데이 취약점 찾고 AI 에이전트 팀 협업 시작

사진 출처: Anthropic

AI 모델이 보안 전문가에게 아무런 지시도 받지 않고 스스로 오픈소스 코드에서 500개 이상의 제로데이 취약점을 찾아냈습니다. Anthropic이 2월 5일 발표한 Claude Opus 4.6의 이야기입니다. 이번 모델은 단순히 더 똑똑해진 것을 넘어, AI가 복잡한 작업을 완수하는 방식 자체를 바꾸고 있습니다.

출처: Introducing Claude Opus 4.6 – Anthropic

첫 시도에서 프로덕션 수준 달성

Claude Opus 4.6의 가장 큰 변화는 “완성도”입니다. 이전 모델들은 초안을 만들고 여러 번 수정하는 과정이 필요했지만, Opus 4.6은 첫 시도에서 실제로 사용 가능한 수준의 결과물을 내놓습니다.

Anthropic의 내부 Real-World Finance 평가에서 Opus 4.6은 불과 몇 달 전 모델인 Sonnet 4.5보다 23% 이상 높은 점수를 받았습니다. 이 평가는 투자은행, 사모펀드, 기업 재무 분석가들이 실제로 수행하는 약 50가지 작업을 테스트한 것으로, 스프레드시트부터 프레젠테이션까지 포함합니다.

벤치마크 결과도 인상적입니다. GDPval-AA(금융·법률 등 실무 지식 작업 평가)에서 OpenAI의 GPT-5.2보다 144 Elo 점수 높게 나왔고, Terminal-Bench 2.0(에이전트 코딩 평가)과 BrowseComp(온라인 정보 탐색)에서도 업계 1위를 기록했습니다.

여러 AI가 팀으로 협업하다

Opus 4.6의 가장 흥미로운 기능은 ‘에이전트 팀’입니다. 이제 하나의 AI가 순차적으로 작업하는 대신, 여러 AI가 각자 맡은 부분을 병렬로 처리하고 서로 조율합니다.

작동 방식은 이렇습니다. 큰 작업이 들어오면 메인 에이전트가 독립적인 하위 작업들로 분할합니다. 각 하위 에이전트는 자신의 작업을 수행하고, 필요하면 서로 통신하며, 막히는 부분이 있으면 보고합니다. 마치 실제 팀이 일하는 것처럼요.

Rakuten의 유스케 카지 본부장은 실제 테스트 사례를 공유했습니다. Opus 4.6이 하루 만에 13개 이슈를 자율적으로 해결하고 12개 이슈를 적절한 팀원에게 배정했다고 합니다. 약 50명 규모 조직의 6개 리포지토리를 관리하면서, 제품과 조직 결정을 모두 처리했고 사람의 개입이 필요한 시점도 정확히 판단했다고 하죠.

보안 취약점을 자동으로 찾아내다

Anthropic의 프론티어 레드팀이 Opus 4.6을 샌드박스 환경에서 테스트한 결과는 놀라웠습니다. 모델에게 Python과 디버거, 퍼저 같은 일반적인 보안 도구만 제공했을 뿐 특별한 지시는 하지 않았는데, 스스로 오픈소스 코드에서 500개 이상의 제로데이 취약점을 발견했습니다. 모든 취약점은 Anthropic 팀이나 외부 보안 연구자가 검증했습니다.

흥미로운 점은 Claude가 기존 보안 도구로는 찾지 못한 버그를 새로운 방식으로 발견했다는 겁니다. 예를 들어 GhostScript 프로젝트의 취약점을 찾을 때, 퍼징과 수동 분석이 실패하자 Git 커밋 히스토리를 분석하는 방법을 스스로 생각해냈습니다.

Anthropic의 로건 그레이엄 프론티어 레드팀 책임자는 “방어자와 공격자의 경주에서, 우리는 가능한 빨리 방어자 손에 도구를 쥐여주고 싶다”고 말했습니다. 동시에 회사는 악용을 막기 위한 새로운 보안 통제를 추가했고, 실시간 탐지로 의심스러운 트래픽을 차단할 계획입니다.

실무 도구에 바로 통합

Opus 4.6은 실제 업무 환경에 바로 들어갑니다. Claude in Excel은 이제 더 긴 작업을 처리하고, 피벗 테이블 편집, 차트 수정, 조건부 서식 같은 기능을 지원합니다. 데이터를 탭 사이에서 복사-붙여넣기할 필요 없이 드래그 앤 드롭으로 여러 파일을 한 번에 처리할 수 있습니다.

새로 출시된 Claude in PowerPoint(베타)는 기존 레이아웃과 폰트, 마스터를 읽고 그 스타일을 유지하면서 프레젠테이션을 만들거나 수정합니다. 템플릿을 활용하거나 처음부터 덱을 생성할 수 있습니다.

금융 업계 반응도 구체적입니다. BCI의 벤 레탈릭 이사는 “멀티탭 분석 같은 복잡한 작업에서 속도, 정밀도, 용량이 향상되어 흥미로운 가능성이 열렸다”고 평가했고, Hg Catalyst의 로이드 힐튼 책임자는 “듀딜리전스부터 재무 모델링까지 비구조화 데이터를 최소한의 프롬프트로 자동화한다”고 말했습니다.

기업 AI의 새로운 단계

Opus 4.6은 100만 토큰 컨텍스트 창(베타)과 최대 128,000 토큰 출력을 지원하는 첫 Opus급 모델입니다. 이전에는 긴 대화에서 정보를 잃어버리는 “컨텍스트 로트” 현상이 문제였는데, MRCR v2 벤치마크(8-needle 1M 변형)에서 Opus 4.6은 76%를 기록한 반면 Sonnet 4.5는 18.5%에 그쳤습니다.

새로 도입된 적응형 사고(adaptive thinking) 기능도 주목할 만합니다. 이전에는 확장 사고를 켜거나 끄는 이진 선택만 가능했지만, 이제 모델이 상황에 맞춰 얼마나 깊이 생각할지 스스로 판단합니다. 개발자는 effort 파라미터로 저/중/고/최대 4단계로 조절할 수 있습니다.

안전성 측면에서도 Opus 4.6은 이전 모델인 Opus 4.5와 동등하거나 더 나은 수준을 보였습니다. Anthropic의 자동화된 행동 감사에서 기만, 아첨, 사용자 망상 조장 같은 잘못된 행동 비율이 낮게 나왔고, 무해한 질문을 거부하는 과도한 거절도 최근 Claude 모델 중 가장 적었습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다