보안 벤치마크가 취약한 코드를 찾거나 충돌을 재현하는 수준에 머물면, 모델이 실제 공격 체인을 완성할 수 있는지는 알기 어렵다. Exploit Evals는 Anthropic Red Team이 2026년 5월 22일 공개한 분석으로, Claude Mythos Preview를 ExploitBench, ExploitGym, SCONE-bench에 적용해 취약점을 권한 탈취나 코드 실행으로 이어가는 능력을 평가한다.
왜 중요한가
평가의 핵심은 단순한 버그 재현(proof of concept)과 실질적 악용(exploit development)을 구분하는 데 있다. 모델이 샌드박스를 벗어나거나 공격자가 원하는 실행 권한을 얻을 수 있다면, 방어 조직의 패치·모니터링·모델 배포 정책도 달라져야 한다.
세 가지 평가 축
| 벤치마크 | 대상 | 성공 기준 |
|---|---|---|
| ExploitBench | 패치된 V8 취약점 41개 | 16개 능력 단계를 프로그램으로 검증하고 최종 임의 코드 실행 측정 |
| ExploitGym | OSS-Fuzz, V8, Linux 커널의 패치된 취약점 898개 | 의도한 취약점으로 권한 밖 코드 실행 후 동적 플래그 획득 |
| SCONE-bench | 스마트 계약 취약점 | 경제적 악용 결과와 공격 수행 능력 측정 |
ExploitBench는 도달(T5), 재현(T4), 대상 내부 프리미티브(T3), 샌드박스 밖 프리미티브(T2), 완전 제어(T1)의 사다리로 결과를 나눈다. 이 구조는 어느 지점에서 모델 능력이 급격히 상승하는지 보여준다.
보고된 결과와 해석
Anthropic의 보고에 따르면 Mythos Preview는 ExploitBench의 V8 환경 41개 중 21개에서 임의 코드 실행(ACE)을 달성했으며, ExploitGym에서는 의도한 취약점을 사용한 성공이 157건이었다. 이 결과는 모델 접근 확대가 공격 전문성의 장벽을 낮출 수 있음을 시사한다. 동시에 평가 대상은 패치된 취약점과 통제된 하네스이므로, 결과를 곧바로 실세계 침해 발생률로 해석해서는 안 된다.
실무에 주는 시사점
- 모델 배포 평가는 “취약점 찾기”와 “공격 완성하기”를 별도 위험 단계로 다뤄야 한다.
- 고성능 사이버 모델에는 접근 제한, 실행 샌드박스, 모니터링, 책임 있는 공개 절차가 필요하다.
- 방어팀은 같은 하네스를 패치 우선순위 지정과 회귀 검증에 활용할 수 있다.
- 공개 벤치마크 결과는 모델별 하네스, 시간 예산, 완화책 설정을 함께 읽어야 한다.
관련 문서
- cybersecqwen-4b — 방어적 사이버 보안 작업을 위한 로컬 소형 모델
- ai-agent-security-tips-memory-poisoning — 에이전트 운영 보안 위협과 방어
- ai-agent-evaluation — 에이전트 도구 사용과 장기 작업 평가
참고 자료
- Measuring LLMs’ ability to develop exploits — Anthropic Red Team (2026-05-22)