세계에서 가장 철저하게 검사된 오픈소스 브라우저 중 하나인 Firefox에서, AI가 단 20분 만에 첫 번째 메모리 취약점을 찾아냈습니다.

Anthropic이 Mozilla와의 보안 협업 결과를 공개했습니다. Claude Opus 4.6이 Firefox 코드베이스를 2주간 스캔해 22개의 공식 보안 취약점(CVE)을 발견했고, 그 중 14개는 고위험도로 분류됐습니다. 2025년 한 해 동안 Mozilla가 패치한 고위험도 Firefox 취약점의 약 1/5에 해당하는 수치입니다. 대부분은 이미 Firefox 148에서 수정됐습니다.
출처: Partnering with Mozilla to improve Firefox’s security – Anthropic
수십 년간 쓰인 도구가 놓친 것들
Anthropic이 Firefox를 테스트 대상으로 고른 이유는 역설적으로 “너무 잘 검사된 코드”였기 때문입니다. 수억 명이 매일 쓰는 브라우저이고, fuzzing(무작위 입력을 쏟아붓는 자동화 테스트)을 비롯한 기존 보안 도구들이 수십 년간 적용된 프로젝트입니다. 그런 곳에서 AI가 새로운 취약점을 찾아낸다면, 진짜 능력으로 볼 수 있다는 판단이었죠.
결과적으로 Mozilla 측도 예상하지 못한 수준이었습니다. Claude는 기존 fuzzing이 발견하지 못한 오류 클래스 전체를 새로 발굴했습니다. 2주간 스캔한 C++ 파일만 약 6,000개, 제출한 보고서는 총 112건입니다.
어떻게 스캔했나
Claude는 먼저 JavaScript 엔진부터 분석했습니다. 브라우저가 웹페이지를 열 때 외부 코드를 직접 실행하는 영역이라, 공격 표면이 특히 넓은 곳이죠. 탐색을 시작한 지 20분 만에 첫 번째 ‘Use After Free’ 취약점을 발견했습니다. 공격자가 임의의 악성 코드를 메모리에 덮어쓸 수 있는 유형입니다.
이 과정에서 핵심 역할을 한 건 ‘task verifier’라는 구조였습니다. AI가 취약점 후보를 찾으면 즉시 별도 도구로 검증하고, 그 결과를 피드백 삼아 다시 탐색하는 반복 구조입니다. Anthropic 팀이 첫 취약점을 검증하고 Mozilla에 제출하는 사이, Claude는 이미 50개의 추가 크래시 입력을 발견해둔 상태였습니다.
찾는 건 잘하지만, 공격은 아직
흥미로운 지점은 취약점 ‘발견’과 ‘악용’ 사이의 격차입니다. Anthropic은 발견한 취약점으로 실제 공격 코드(exploit)도 만들 수 있는지 테스트했습니다. API 비용으로 약 400만 원($4,000)을 쓰며 수백 번 시도했지만, 성공한 건 단 2건이었습니다.
성공한 2건도 현대 브라우저에 기본 탑재된 샌드박스 같은 보안 레이어를 제거한 환경에서만 작동했습니다. 실제 사용 중인 Firefox에 바로 쓸 수 있는 공격 코드는 아니었다는 뜻입니다.
Anthropic은 이 격차가 현재로선 방어자에게 유리한 구도를 만든다고 분석합니다. 취약점을 찾는 비용이 공격 코드를 만드는 비용보다 훨씬 싸고 빠르다면, 먼저 찾아 막는 쪽이 앞설 수 있다는 논리입니다. 다만 이 격차가 언제까지 유지될지는 장담하기 어렵다고도 덧붙였습니다.
Mozilla는 이번 협업을 계기로 AI 기반 코드 분석을 내부 보안 워크플로에 통합할 계획이라고 밝혔습니다. 취약점별 상세 기술 분석과 실제 익스플로잇 개발 과정은 Anthropic 원문과 Mozilla 블로그에서 확인할 수 있습니다.
참고자료: Anthropic’s Claude AI uncovers over 100 security vulnerabilities in Firefox – The Decoder

답글 남기기