AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Fable 5 가드레일 두 가지, 하나는 보이고 하나는 안 보인다

Anthropic의 새 모델 Fable 5가 출시 다음 날부터 사이버보안 연구자들의 불만을 샀습니다. 그런데 시스템 카드를 꼼꼼히 읽은 개발자들은 훨씬 더 불편한 사실을 발견했습니다.

사진 출처: TechCrunch

Anthropic이 6월 9일 Claude Fable 5를 공개했습니다. Mythos 클래스 모델을 일반에 공개한 첫 사례로, 사이버보안과 생물학 분야에 특화된 고성능 모델입니다. 단, 같은 기반 모델인 Mythos 5와 달리 Fable 5에는 특정 주제에 대한 가드레일이 적용되어 있습니다. 이 가드레일이 어떻게 작동하는지, 그리고 공개되지 않은 또 다른 제한이 무엇인지가 출시 직후 논란의 중심이 됐습니다.

출처: Claude Fable 5 and Claude Mythos 5 – Anthropic

보이는 가드레일: 사이버·바이오 주제 차단

Fable 5에는 사이버보안, 생물학, 화학 관련 주제를 감지해 차단하는 분류기(classifier)가 내장돼 있습니다. 해당 주제가 감지되면 모델은 사용자에게 이를 알리고, 대신 Claude Opus 4.8로 응답을 처리합니다.

문제는 이 분류기가 너무 광범위하게 작동한다는 점입니다. 보안 연구자 Valentina Palmiotti는 “블로그 포스트를 읽는 것처럼 사이버와 간접적으로만 관련된 요청도 거부당한다”고 밝혔습니다. 코드 리뷰를 요청하거나 보안 모범 사례를 묻는 것만으로도 가드레일이 발동된다는 사례도 잇따라 보고됐습니다. 사이버보안 베테랑 Matt Suiche는 “보안 관련 어휘가 포함되면 무조건 트리거되는 것 같다”고 지적했습니다.

Anthropic은 이를 인지하고 있습니다. 공식 발표에서 “가드레일을 보수적으로 설정했으며, 전체 세션의 5% 미만에서 오탐이 발생한다”고 밝혔습니다. Ars Technica에 따르면, 외부 팀이 1,000시간 이상 레드팀 테스트를 진행했지만 범용 탈옥 방법은 발견되지 않았습니다. 한편 영국 AI 안전 연구소의 평가에서는 Mythos Preview가 OpenAI GPT-5.5와 유사한 성능을 보인 것으로 나타났습니다.

이 가드레일을 우회하는 공식 경로도 있습니다. Anthropic의 Cyber Verification Program에 승인되면 사이버보안 관련 제한이 완화됩니다. OpenAI도 유사한 Trusted Access for Cyber 프로그램을 운영합니다.

안 보이는 가드레일: 개발 도구를 조용히 성능 저하

더 화제를 모은 건 319페이지 분량의 Fable 5 시스템 카드에 담긴 내용이었습니다. 개발자 Jonathon Ready가 이를 발굴해 공개했습니다.

시스템 카드에 따르면, Anthropic은 경쟁 AI 모델 개발에 활용될 수 있는 요청에 대해 사용자에게 알리지 않고 응답 품질을 의도적으로 낮추는 조치를 적용했습니다. 구체적으로는 사전 학습 파이프라인 구축, 분산 학습 인프라, ML 가속기 설계 등이 해당됩니다. 시스템 카드 원문은 이를 이렇게 설명합니다: 사이버보안·바이오와 달리 이 가드레일은 모델 폴백(fallback) 없이 작동하며, 프롬프트 수정·스티어링 벡터·파인튜닝(PEFT) 등의 방식으로 “효과를 제한”합니다.

경쟁 모델 개발에 Claude를 사용하는 것은 이미 이용약관 위반입니다. Anthropic의 논리는, 이 제한을 약관이 아닌 모델 수준에서 집행하면 약관을 어길 의향이 있는 행위자를 더 효과적으로 막을 수 있다는 것입니다. 영향 범위는 전체 트래픽의 0.03%, 전체 조직의 0.1% 미만으로 추산됩니다.

Ready가 지적하는 문제는 이것입니다. “프론티어 AI 개발”의 경계가 모호하다는 점입니다. 임베딩 모델 학습, 리랭커 구축, 소형 모델 파인튜닝은 이제 AI 스타트업뿐 아니라 일반 소프트웨어 회사에서도 흔히 하는 작업입니다. 개발자가 모델 학습 파이프라인 디버깅 중 Claude로부터 이상한 답변을 받았다면, 그것이 모델의 한계인지, 잘못된 맥락 때문인지, 아니면 조용히 작동한 가드레일 때문인지 알 방법이 없습니다.

두 가드레일이 드러내는 것

두 가드레일의 차이는 분명합니다. 하나는 사용자에게 명확히 알립니다. 다른 하나는 알리지 않습니다.

Anthropic이 이 두 가지 접근을 선택한 이유는 나름 일관적입니다. 사이버·바이오는 외부 연구자들도 인지해야 할 위협이고, 경쟁사 AI 개발 제한은 약관 위반자를 노린 조치이기 때문에 투명하게 알릴 필요가 없다는 논리입니다.

하지만 개발자 입장에서 “도구가 언제 최선을 다하지 않는지 모를 수 있다”는 사실은 단순한 불편함 이상입니다. 가드레일이 작동하는 범위가 앞으로 어떻게 달라질지, Anthropic이 그 기준을 어떻게 정의할지는 계속 지켜봐야 할 부분입니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다