스마트 컨트랙트를 지키는 AI와 뚫는 AI, 어느 쪽이 더 강할까요? OpenAI의 최신 벤치마크는 조금 불편한 답을 내놓습니다.

OpenAI와 암호화폐 투자사 Paradigm이 공동으로 EVMbench를 발표했습니다. AI 에이전트가 스마트 컨트랙트의 취약점을 탐지하고, 수정하고, 실제로 공격하는 능력을 측정하는 벤치마크입니다. 핵심 결과는 뚜렷합니다. AI는 방어보다 공격에서 훨씬 뛰어납니다.
출처: Introducing EVMbench – OpenAI
EVMbench가 측정하는 것
스마트 컨트랙트는 현재 1,000억 달러(약 140조 원) 이상의 암호화폐 자산을 관리하는 코드입니다. 한 번 배포되면 수정이 어렵고, 취약점이 발견되면 즉시 자금이 탈취될 수 있습니다.
EVMbench는 실제 감사 대회에서 발굴된 120개의 고위험 취약점을 기반으로 AI 에이전트를 세 가지 모드에서 평가합니다.
- 탐지(Detect): 컨트랙트를 감사해 취약점을 얼마나 빠짐없이 찾아내는가
- 패치(Patch): 취약점을 제거하면서 기존 기능을 그대로 유지할 수 있는가
- 공격(Exploit): 실제로 자금을 탈취하는 공격을 성공시킬 수 있는가
평가 환경은 실제 블록체인을 모방한 샌드박스에서 진행되며, 공격 성공 여부는 온체인 트랜잭션 기록으로 자동 판정합니다.
공격이 방어보다 쉽다
GPT-5.3-Codex는 공격 모드에서 72.2%를 기록했습니다. 6개월 전 GPT-5가 31.9%였던 것과 비교하면 두 배 이상 향상된 수치입니다. 반면 탐지와 패치 성능은 여전히 완전한 커버리지에 미치지 못합니다.
이 격차는 단순한 수치 차이가 아닙니다. 공격 모드는 목표가 명확합니다. “자금을 빼내기 전까지 계속 시도하라.” AI 에이전트는 이런 명확한 목표 환경에서 강점을 발휘합니다. 반면 탐지 모드에서는 하나의 취약점을 찾은 뒤 감사를 멈추는 경향을 보였고, 패치 모드에서는 취약점을 제거하면서 기능을 온전히 유지하는 섬세한 판단이 요구되다 보니 성능이 더 낮았습니다.
OpenAI의 이중 전략
이 결과는 사이버보안 분야의 오래된 딜레마를 다시 꺼냅니다. 공격 능력이 방어 능력보다 빠르게 성장한다면, AI는 보안을 강화하는 도구인가, 아니면 위협을 키우는 도구인가.
OpenAI는 공세적 능력 개선과 방어 투자를 동시에 진행한다는 입장입니다. EVMbench를 공개 릴리즈하는 한편, 보안 연구 에이전트 Aardvark의 프라이빗 베타를 확대하고, 오픈소스 프로젝트를 위한 무료 코드베이스 스캐닝을 제공합니다. 사이버 방어를 위한 API 크레딧 1,000만 달러 지원 프로그램도 함께 발표했습니다.
EVMbench 자체는 오픈소스로 공개되어 있어 연구자들이 자체적으로 모델을 평가하거나 벤치마크를 확장할 수 있습니다. 스마트 컨트랙트 보안 분야에서 AI 능력이 실제로 얼마나 빠르게 성장하는지 추적할 수 있는 공식 측정 도구가 생긴 셈입니다.
참고자료:
- Strengthening Cyber Resilience – OpenAI
- EVMbench GitHub (OpenAI) – openai/frontier-evals (평가 코드)
- EVMbench GitHub (Paradigm) – paradigmxyz/evmbench (탐지 인터페이스 포함 전체 하네스)

답글 남기기