Anthropic이 “잘못된 트레이드오프였다”고 공식 인정했습니다. 보이지 않는 가드레일을 조용히 적용한 지 이틀 만에 나온 반응입니다.

Fable 5 출시 직후, Anthropic이 경쟁 AI 모델 개발 관련 요청에 몰래 성능을 낮추는 가드레일을 적용한 사실이 알려지면서 연구 커뮤니티의 강한 반발을 불렀습니다. 결국 Anthropic은 이 정책을 철회하고 공개 사과했습니다.
출처: Anthropic apologizes for invisible Claude Fable guardrails – The Verge
무엇을 번복했나
Fable 5 시스템 카드에는 “프론티어 LLM 개발”을 겨냥한 요청, 즉 사전 학습 파이프라인 구축, 분산 학습 인프라, ML 가속기 설계 등에 대해 사용자 통보 없이 응답 품질을 의도적으로 낮추겠다는 내용이 담겨 있었습니다. 다른 가드레일(사이버·바이오)처럼 Opus 4.8로 폴백하는 방식이 아니라, 아무 신호 없이 조용히 작동하는 구조였습니다.
이 내용이 개발자 Jonathon Ready에 의해 공개되자 반발이 거셌습니다. 전 백악관 AI 자문 Dean Ball은 “충격적으로 적대적인 접근”이라고 표현했고, 오픈소스 스타트업 Prime Intellect의 Will Brown은 “Anthropic이 자기들만 AI 연구를 해야 한다고 말하는 것처럼 들렸다”고 비판했습니다.
Anthropic의 논리, 그리고 인정
Anthropic의 @ClaudeDevs 계정은 번복 이유를 이렇게 설명했습니다.
“보이는 가드레일은 프로빙(탐지 시도)에 노출되기 때문에 견고하게 만드는 데 시간이 걸립니다. 보이지 않는 가드레일은 더 좁게 타겟팅할 수 있어 오탐 없이 빠르게 출시할 수 있었습니다. 이 이유로 보이지 않는 가드레일을 선택했고, 그것이 잘못된 트레이드오프였습니다.”
빠른 출시를 위해 투명성을 양보했다는 솔직한 인정입니다. Anthropic은 이제 해당 요청을 Opus 4.8로 폴백 처리하고, 사용자에게 매번 명시적으로 알리겠다고 밝혔습니다. API에서도 차단된 요청에 대한 이유를 반환하는 기능이 곧 추가됩니다.
투명성 문제가 남기는 것
이번 사건에서 핵심은 Anthropic이 번복했다는 사실 자체가 아닙니다. “우리가 당신 모르게 응답을 바꿀 수 있다”는 가능성이 공개됐다는 점입니다.
Anthropic은 경쟁 모델 개발에 Claude를 쓰는 것은 이용약관 위반이라는 점을 근거로 들었습니다. 하지만 “프론티어 LLM 개발”의 경계는 모호합니다. 임베딩 모델 학습이나 소형 모델 파인튜닝도 여기에 해당할 수 있고, 개발자는 자신이 가드레일에 걸렸는지조차 알 수 없었습니다. 이번 번복으로 즉각적인 문제는 해소됐지만, AI 도구가 언제 어떤 기준으로 투명하게 작동하는지는 계속 열려 있는 질문입니다.

답글 남기기