AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Exploit Evals – LLM의 실제 취약점 익스플로잇 개발 능력을 측정하는 평가 체계

보안 벤치마크가 취약한 코드를 찾거나 충돌을 재현하는 수준에 머물면, 모델이 실제 공격 체인을 완성할 수 있는지는 알기 어렵다. Exploit Evals는 Anthropic Red Team이 2026년 5월 22일 공개한 분석으로, Claude Mythos Preview를 ExploitBench, ExploitGym, SCONE-bench에 적용해 취약점을 권한 탈취나 코드 실행으로 이어가는 능력을 평가한다.

왜 중요한가

평가의 핵심은 단순한 버그 재현(proof of concept)과 실질적 악용(exploit development)을 구분하는 데 있다. 모델이 샌드박스를 벗어나거나 공격자가 원하는 실행 권한을 얻을 수 있다면, 방어 조직의 패치·모니터링·모델 배포 정책도 달라져야 한다.

세 가지 평가 축

벤치마크대상성공 기준
ExploitBench패치된 V8 취약점 41개16개 능력 단계를 프로그램으로 검증하고 최종 임의 코드 실행 측정
ExploitGymOSS-Fuzz, V8, Linux 커널의 패치된 취약점 898개의도한 취약점으로 권한 밖 코드 실행 후 동적 플래그 획득
SCONE-bench스마트 계약 취약점경제적 악용 결과와 공격 수행 능력 측정

ExploitBench는 도달(T5), 재현(T4), 대상 내부 프리미티브(T3), 샌드박스 밖 프리미티브(T2), 완전 제어(T1)의 사다리로 결과를 나눈다. 이 구조는 어느 지점에서 모델 능력이 급격히 상승하는지 보여준다.

보고된 결과와 해석

Anthropic의 보고에 따르면 Mythos Preview는 ExploitBench의 V8 환경 41개 중 21개에서 임의 코드 실행(ACE)을 달성했으며, ExploitGym에서는 의도한 취약점을 사용한 성공이 157건이었다. 이 결과는 모델 접근 확대가 공격 전문성의 장벽을 낮출 수 있음을 시사한다. 동시에 평가 대상은 패치된 취약점과 통제된 하네스이므로, 결과를 곧바로 실세계 침해 발생률로 해석해서는 안 된다.

실무에 주는 시사점

  • 모델 배포 평가는 “취약점 찾기”와 “공격 완성하기”를 별도 위험 단계로 다뤄야 한다.
  • 고성능 사이버 모델에는 접근 제한, 실행 샌드박스, 모니터링, 책임 있는 공개 절차가 필요하다.
  • 방어팀은 같은 하네스를 패치 우선순위 지정과 회귀 검증에 활용할 수 있다.
  • 공개 벤치마크 결과는 모델별 하네스, 시간 예산, 완화책 설정을 함께 읽어야 한다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)