Fable 5 탈옥 의심, 정체는 세 단어짜리 요청이었다

미국 정부는 Anthropic의 최신 모델 두 개를 국가안보 사안으로 분류해 전 세계 접근을 막았습니다. 그 근거로 지목된 ‘탈옥’ 수법의 실체는, 코드를 보여주고 고쳐달라고 요청한 것이 전부였습니다.

사진 출처: Anthropic

버그바운티 분야의 권위자 Katie Moussouris는 이 사건의 근거가 된 연구 보고서를 직접 읽은 유일한 외부 전문가입니다. 연구진이 보안 취약점이 담긴 코드를 Fable 5에 ‘검토해달라’고 요청하자 모델은 거부했지만, ‘고쳐달라’고 다시 묻자 패치와 테스트 스크립트까지 만들어줬습니다. 정부가 지목한 ‘탈옥’은 이 과정이 전부였습니다.

출처:

The Fable 5 Export Controls Harm US Cyber Defense – Luta Security (Katie Moussouris)
Statement on the US government directive to suspend access to Fable 5 and Mythos 5 – Anthropic

검토는 거부됐고, 수정은 받아들여졌다

지난 6월 12일 금요일 오후 5시 21분(미 동부시간), Anthropic은 미 상무부로부터 명령서를 받았습니다. 외국 국적자는 Fable 5와 Mythos 5에 접근할 수 없다는 수출통제 지시였습니다. 국적을 구분할 방법이 없던 회사는 결국 두 모델을 전체 고객에게서 내렸습니다.

정부가 명시한 근거는 가드레일 우회, 즉 탈옥이었습니다. 하지만 Moussouris가 공개한 경위는 평범했습니다. 아마존 소속으로 알려진 연구자들은 다음 순서로 모델을 시험했습니다.

이미 알려진 보안 결함(CVE)이 있는 오픈소스 코드와, 의도적으로 취약점을 심은 새 코드를 모델에 제시
“코드의 보안 문제를 검토해달라”고 요청 — Fable 5는 거부
“이 코드를 고쳐달라”고 다시 요청 — 모델이 응답해 수정된 코드를 내놓음
후속 요청으로 수정 사항을 검증하는 테스트 스크립트까지 생성

왜 이걸 ‘탈옥’이 아니라고 하는가

Anthropic에 따르면 탈옥에는 두 종류가 있습니다. 안전장치를 광범위하게 뚫어 다양한 위험한 결과를 끌어낼 수 있는 범용 탈옥, 그리고 특정 상황에서만 제한된 정보를 얻어낼 수 있는 비범용 탈옥입니다. 출시 전 수천 시간의 레드팀 테스트에서도 범용 탈옥은 발견되지 않았다고 회사는 밝혔습니다.

완벽한 탈옥 방지가 불가능하다는 전제는 처음부터 있었고, 그래서 택한 전략이 다층 방어입니다. 탈옥이 일어나도 범위를 좁히거나 시도 비용을 비싸게 만들고 빠르게 탐지해 차단하는 방식입니다. 정부에 보고된 사례는 회사 기준 비범용 탈옥이며, OpenAI의 GPT-5.5 등 다른 공개 모델로도 동일하게 재현 가능한 수준이라고 Anthropic은 설명했습니다. 참고로 Mythos는 출시 때부터 제로데이 취약점을 스스로 찾아내는 능력으로 알려진 모델이기도 합니다.

보안 전문가 100명이 들고 일어난 이유

보안 업계의 반응은 거의 한목소리였습니다. Moussouris를 포함해 100명이 넘는 전문가가 상무부에 통제 철회를 요청하는 공개서한에 서명했습니다. 방어자가 공격자보다 먼저 같은 버그를 찾아 고칠수록 방어력이 올라가는데, 이번 조치는 정작 방어자의 도구를 빼앗는 결과를 낳는다는 논리입니다.

Moussouris는 2013년 다자간 수출통제 협정인 바세나르 협정에 ‘침입 소프트웨어’ 통제가 추가됐을 때도 비슷한 일이 있었다고 짚었습니다. 규정이 지나치게 광범위해 정상적인 취약점 공개와 사고 대응까지 통제 대상에 걸릴 뻔했고, 수년 뒤에야 방어 활동 예외가 인정됐습니다. 미국이 통제할 수 없는 해외 오픈웨이트 모델들도 머지않아 비슷한 능력을 갖추게 될 가능성이 큽니다. Anthropic은 현재 워싱턴에서 정부와 협상을 이어가고 있습니다.

기준선이 흔들리면 생기는 일

이 사건이 보여주는 건 탈옥이라는 단어가 가진 모호함입니다. 같은 행동을 두고 한쪽은 보안 연구의 일상적인 작업으로, 다른 한쪽은 국가안보를 위협하는 가드레일 우회로 불렀습니다. 그 경계가 정밀한 기준이 아니라 누가 보고하고 어떻게 설명하느냐에 따라 갈릴 수 있다는 점이 이번 일로 드러났습니다.

게다가 실제로 접근이 끊긴 건 미국 밖에 있는 사용자 전체였습니다. 모델 하나에 대한 위험성 판단이 정책 결정으로 넘어가는 순간, 그 영향은 해당 모델을 쓰던 모든 사용자에게 고르게 미친다는 사실을 이번 사례가 보여줍니다.

참고자료:

Feds freaked over Fable 5 after simple ‘fix this code’ prompt, not jailbreak, says researcher – The Register
The US government’s Anthropic models ban was never about an AI jailbreak – TechCrunch

Like?

AI Sparkup

Fable 5 탈옥 의심, 정체는 세 단어짜리 요청이었다

검토는 거부됐고, 수정은 받아들여졌다

왜 이걸 ‘탈옥’이 아니라고 하는가

보안 전문가 100명이 들고 일어난 이유

기준선이 흔들리면 생기는 일

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Fable 5 탈옥 의심, 정체는 세 단어짜리 요청이었다

링크드인 채용 제안에 숨은 백도어, AI 에이전트가 찾아낸 npm 공급망 공격

AI 에이전트가 도구를 직접 찾는다, ARD 명세가 바꾸는 것

AI 지능지수에 비용 지표 추가, 모델별 격차 최대 45배