Cybersecurity Evals는 모델이 취약점을 찾고, exploit을 만들고, 방어자에게 도움이 되는지 측정하는 평가 영역이다. 일반 지식 QA와 달리 보안 평가는 환경, 도구, grader, 공격 목표가 함께 있어야 한다.
공통 구성요소
| 요소 | 설명 |
|---|---|
| 입력 | 취약 코드, 설명, 패치, crash trace 등 난이도를 조절하는 정보 |
| 도구 | bash, 파일 읽기/쓰기, 디버거, 정적 분석기, 웹 검색 |
| 환경 | Docker, vulnerable service, CTF 서버, 테스트 harness |
| grader | flag 획득, sanitizer crash, PoC 재현처럼 결과를 판정하는 자동 채점기 |
이 구조는 에이전트가 단순히 “취약할 것 같다”고 말하는지, 실제로 재현 가능한 증거를 만드는지 구분한다.
대표 벤치마크
Cybench는 CTF 문제에서 flag를 얻는지 본다. CVE-Bench는 공개 취약점과 zero-day 비슷한 설정을 나눠 공격 가능성을 측정한다. CyberGym은 취약점 설명과 pre-patched codebase를 주고 PoC 재현 능력을 본다. ExploitGym과 ExploitBench는 단순 crash를 넘어 실제 unauthorized code execution까지 진전하는지를 측정한다.
방어자 관점에서의 의미
보안 eval은 공격 능력만 재는 도구가 아니다. 방어자가 취약점 탐지 에이전트를 도입할 때도 오탐, 재현성, 도구 사용 실패, 긴 코드베이스 탐색 한계를 드러내는 장치가 된다. 운영 환경에서는 exploit 생성 능력보다 patch 검증, triage, 회귀 테스트 연결이 더 중요할 수 있다.
관련 문서
- claude-tips-code-security — LLM으로 소스 코드 보안 취약점을 탐지하고 수정하는 워크플로
- prompt-injection-role-confusion — 프롬프트 인젝션을 역할 혼동으로 설명하는 보안 연구
- deployment-simulation — 실제 배포 트래픽을 재생해 모델 위험을 사전 예측하는 평가 방법
참고 자료
- Patterns for Building Cybersecurity Evals — Eugene Yan (2026-06)
- Using LLMs to secure source code — Anthropic Claude Blog (2026-05-27)