AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Anthropic Mythos, G20 금융 규제 기관 긴급 브리핑 부른 이유

잉글랜드 은행 총재가 먼저 연락을 해왔습니다. AI 모델이 발견한 금융 시스템 취약점을 G20 금융 규제 기관들에 직접 브리핑해 달라는 요청이었습니다. Anthropic이 공개하지도 않은 모델 Mythos Preview가 어떤 일을 해냈길래 이런 상황이 됐을까요.

사진 출처: Cloudflare Blog

Anthropic은 AWS, Apple, Google, Microsoft, Cloudflare 등 주요 기업들과 함께 Project Glasswing을 결성하고, Mythos Preview를 방어적 보안 목적에 한해 약 40개 조직에 제한적으로 제공했습니다. Mythos가 주요 운영체제와 브라우저 전반에서 수천 개의 제로데이 취약점을 찾아냈고, 이 결과가 금융안정위원회(FSB)까지 움직였습니다. Project Glasswing 파트너 중 하나인 Cloudflare는 자사 코드베이스 50개 이상에 Mythos를 테스트한 경험을 최근 블로그에 상세히 공개했습니다.

출처: Project Glasswing: what Mythos showed us – Cloudflare Blog

기존 AI가 못 했던 것

보안 취약점 분석에서 AI가 부딪혀 온 가장 큰 한계는 “버그를 발견하는 것”과 “그 버그가 실제로 악용 가능한지 증명하는 것” 사이의 간극이었습니다. 기존 모델들은 흥미로운 버그를 발견하고 왜 위험한지 설명한 뒤 거기서 멈췄습니다. 연구자가 직접 후속 작업을 해야 했죠.

Mythos Preview는 두 가지 면에서 달랐습니다.

  1. exploit chain 구성: 실제 공격은 하나의 버그가 아니라 여러 작은 취약점을 연결해서 이뤄집니다. Mythos는 이 조각들을 이어 붙여 실제로 작동하는 공격 체인을 스스로 구성했습니다. 결과물이 자동화 스캐너의 출력이 아니라 시니어 연구자의 작업처럼 보였다고 Cloudflare는 평가했습니다.
  2. 동작 증명(PoC) 자동 생성: 버그를 찾은 뒤 그것을 실제로 트리거하는 코드를 직접 작성하고, 격리된 환경에서 실행해 결과를 확인했습니다. 실패하면 가설을 수정하고 다시 시도하는 루프를 스스로 돌렸습니다.

기존 모델들도 상당수의 버그를 찾아냈습니다. 차이는 그 다음이었습니다. 기존 모델은 낮은 심각도의 버그를 각각 따로 보고하고 멈췄지만, Mythos는 그것들을 연결해 훨씬 심각한 단일 취약점으로 만들어냈습니다. 그동안 백로그에 묻혀 있던 “별로 중요하지 않은 버그들”이 조합되면 치명적인 공격이 된다는 걸 직접 보여준 셈입니다.

Cloudflare가 맞닥뜨린 현실

Cloudflare가 현장에서 발견한 문제는 두 가지였습니다.

첫 번째는 비일관적인 거부 행동입니다. Glasswing용 Mythos Preview는 일반 배포 모델보다 안전 제한이 완화된 버전이었습니다. 그럼에도 모델은 특정 요청에 자발적으로 거부 반응을 보였는데, 문제는 이 거부가 일관되지 않았다는 점입니다. 코드는 동일한데 프로젝트 환경 설명을 바꾸자 처음엔 거부하던 분석을 수행했습니다. 심각한 메모리 버그를 직접 발견해 놓고 그 시연 익스플로잇 작성은 거부하기도 했죠. 이 거부 행동이 안전 경계선 역할을 하기엔 신뢰하기 어렵다는 뜻이고, Cloudflare는 일반 배포 시엔 추가적인 안전장치가 반드시 필요하다고 결론 내렸습니다.

두 번째는 노이즈 문제입니다. 모델은 버그를 찾으라고 하면 찾아냅니다. 코드에 버그가 없어도요. “possibly”, “potentially”, “could in theory” 같은 단서가 붙은 불확실한 결과가 확실한 결과보다 훨씬 많이 나옵니다. Mythos는 여기서도 개선된 모습을 보였습니다. 동작 증명이 붙은 결과는 “이게 진짜인가?”를 묻는 후속 작업 없이 바로 대응할 수 있었고, 전체적으로 노이즈 비율이 낮았습니다.

이 두 문제를 해결하기 위해 Cloudflare가 만든 것이 다단계 에이전트 하네스입니다. “코드 저장소 하나에 에이전트 하나를 붙여 취약점을 찾아라”는 방식은 통하지 않았습니다. 취약점 연구는 수천 개의 좁은 가설을 동시에 병렬로 검사하는 일인데, 코딩 에이전트는 하나의 가설을 붙잡고 깊이 파고드는 구조이기 때문입니다. Cloudflare는 정찰(Recon) → 탐색(Hunt, 약 50개 에이전트 병렬) → 검증(Validate) → 추적(Trace) 등 8단계 파이프라인을 구축해 이 문제를 풀었습니다. 특히 검증 단계에서 에이전트 두 개를 의도적으로 대립시키는 방식이 에이전트 하나에 “더 신중하게 검토해”라고 요청하는 것보다 훨씬 효과적이었다고 합니다.

그래서 G20까지 나섰다

Cloudflare의 사례는 Mythos의 능력을 실전에서 검증한 하나의 사례입니다. Anthropic이 직접 운용하며 내놓은 결과는 스케일이 달랐습니다. 주요 운영체제와 브라우저 전반에서 수천 개의 제로데이 취약점을 찾아냈는데, 그중에는 27년 된 OpenBSD 취약점과 수백만 번의 자동화 테스트를 통과해 온 16년 된 FFmpeg 버그도 포함되어 있었습니다.

이 결과를 접한 잉글랜드 은행 총재이자 FSB 의장인 Andrew Bailey가 먼저 움직였습니다. Anthropic은 Mythos가 금융 시스템에서 발견한 취약점을 G20 금융 규제 기관들에 브리핑할 예정입니다. IMF 역시 이 수준의 AI 모델이 사이버 위험을 “거시금융 충격”으로 전환할 수 있다고 경고했고, FSB는 다음 달 AI의 금융 시스템 영향 보고서를 발표할 예정입니다.

백악관은 Anthropic에 Mythos의 추가 배포를 자제해 달라고 요청한 상태입니다. Cloudflare가 블로그 말미에 남긴 한 문장이 지금 상황을 압축합니다. 자사 코드의 취약점을 찾는 데 도움이 된 바로 그 능력이, 잘못된 손에 들어갔을 때 인터넷의 모든 애플리케이션을 향한 공격을 가속하는 데에도 똑같이 쓰일 수 있다고요.

참고자료: Anthropic to brief global financial regulators on cyber flaws found by Claude Mythos – The Decoder


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다