AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Claude Mythos, 브라우저 취약점 21개 자율 익스플로잇, 인간 연구자도 포기한 버그 해결

1년간 보안 연구자들이 재현하지 못한 취약점을 AI가 단독으로 풀었습니다. 더 놀라운 건, 이 AI가 인간 연구자와 함께 ‘너무 복잡해서 불가능하다’고 결론 내린 익스플로잇 기법을 독자적으로 개발해냈다는 점입니다.

사진 출처: The Decoder

카네기멜론대 연구팀이 AI 에이전트의 실제 브라우저 보안 취약점 익스플로잇 능력을 측정하는 벤치마크 ExploitBench를 발표했습니다. 구글의 JavaScript 엔진 V8에서 발견된 41개 실제 취약점을 대상으로, Anthropic의 Claude Mythos Preview와 OpenAI의 GPT-5.5를 포함한 여러 모델을 평가했습니다. Mythos가 GPT-5.5를 크게 앞섰지만, 비용은 약 12배 더 비쌌습니다.

출처: ExploitBench: A Capability Ladder Benchmark for LLM Cybersecurity Agents – arXiv (Carnegie Mellon University)

“크래시가 났는가”에서 “얼마나 깊이 들어갔는가”로

기존 AI 보안 벤치마크의 핵심 문제는 결과를 이진법으로만 평가했다는 겁니다. 프로그램이 크래시(충돌)를 일으키면 성공, 아니면 실패. 하지만 실제 취약점 익스플로잇은 크래시 유발과 시스템 완전 장악 사이에 수많은 단계가 있습니다.

ExploitBench는 이 과정을 16개 단계(플래그)로 세분화했습니다. 코드 커버리지 확인(T5)부터 시작해 크래시 유발(T4), 메모리 읽기/쓰기 권한 획득(T2), 그리고 최고 단계인 임의 코드 실행(T1)까지 이어집니다. T1은 공격자가 원하는 어떤 명령이든 대상 시스템에서 실행할 수 있는 상태입니다. V8이 Chrome, Edge, Node.js, Cloudflare Workers 등에 탑재된 엔진인 만큼, 이는 실질적인 위협 수준을 의미합니다.

이 등급 체계 덕분에 “이 AI는 취약점을 어느 단계까지 공략할 수 있는가”라는 훨씬 정밀한 질문에 답할 수 있게 됐습니다.

Mythos가 보여준 것들

결과는 뚜렷한 격차를 보였습니다. Mythos는 41개 취약점 중 21개에서 T1(임의 코드 실행)에 도달했고, 사람의 힌트가 없는 완전 자율 모드에서도 점수가 거의 떨어지지 않았습니다(9.55/16). GPT-5.5는 T1을 단 2개에서만 달성했고, 자율 모드에서는 4.30점에 그쳤습니다. 나머지 공개 모델들은 T1에 전혀 도달하지 못했습니다.

연구에 참여한 보안 연구자 Seunghyun Lee는 Mythos의 실행 기록을 직접 검토했습니다. 20개 이상의 브라우저 제로데이를 발견한 그는 Mythos의 접근법을 “꽤 유능한 브라우저 보안 연구자”에 비유했습니다.

구체적인 사례가 더 인상적입니다.

CVE-2023-6702: 이 취약점을 안정적으로 익스플로잇하려면 V8 내부 난수 생성기의 상태를 역산해 특정 메모리 주소를 예측하는 기법이 필요합니다. Lee와 동료 연구자는 이 접근법이 너무 복잡하다고 결론 내린 적이 있었습니다. Mythos는 이를 독자적으로 개발해 실행했습니다. 확률적 추측이 아닌, 수학적으로 난수 상태를 역추적해 원하는 메모리 주소를 거의 결정론적으로 예측하는 방식이었습니다.

CVE-2024-0519: 이 취약점은 보안 커뮤니티에서 “CVE 콜드 케이스”로 불렸습니다. 실제 공격에 쓰인 것으로 알려졌지만, 1년이 넘도록 어떤 연구자도 재현에 성공하지 못했습니다. 공개된 PoC(개념 증명 코드)도 없습니다. Mythos는 129번의 LLM 호출과 154번의 도구 사용 끝에 단독으로 재현했습니다.

성능만큼 두드러지는 비용 격차

Mythos의 41개 취약점 평가(122 에피소드) 비용은 약 $36,428달러였습니다. GPT-5.5는 123 에피소드에 $3,075로 약 12배 저렴했습니다. 영국 AI 안전 연구소(AISI)의 별도 평가에서도 같은 패턴이 확인됐습니다. 연구팀은 OpenAI가 컴퓨팅을 더 투입하면 성능 격차를 좁힐 수 있다고 봤습니다.

방어와 공격 양쪽에 달라지는 것

연구팀은 이 결과가 갖는 양면적 의미를 명확히 제시합니다.

공격자 입장에서는 “패치 공개부터 익스플로잇 완성까지의 시간”이 핵심입니다. 이제 그 시간이 AI 에이전트가 익스플로잇을 구성하는 데 걸리는 시간으로 사실상 단축될 수 있습니다. 데이터셋의 절반 이상이 자율적으로 익스플로잇됐고, T3 이상(유용한 메모리 권한 획득)까지 포함하면 90%에 달합니다.

방어자 입장에서는 동일한 도구가 오히려 유용합니다. “이 버그 리포트가 실제로 T4(크래시)까지 가능한가, T2(메모리 쓰기)까지인가, T1(코드 실행)까지인가”를 자동으로 평가할 수 있다면, 패치 우선순위 결정이 달라집니다. 단순한 크래시 유발인지 완전한 쉘 획득인지만 보던 이진 신호를 훨씬 세밀한 기준으로 대체할 수 있는 셈입니다.

논문은 아직 측정하지 못한 영역도 솔직히 밝힙니다. 새로운 취약점을 발견하는 능력, 실제 공격에 쓸 수 있도록 익스플로잇을 완전히 무기화하는 능력은 이번 평가 범위 밖이었습니다. ExploitBench의 코드는 GitHub에, 논문 전문은 arXiv에 공개돼 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다