AI 안전을 연구하는 사람이 AI에게 “당신은 AI 안전을 위반하고 있습니다”라는 경고를 받았다면 믿으시겠어요? 최근 AI 안전 연구자들이 Anthropic의 Claude를 테스트하다가 겪은 실화입니다. 안전을 위한 조치가 오히려 안전 연구를 막는 아이러니한 상황이 벌어진 거죠.

Futurism이 보도한 내용에 따르면, AI 안전 연구자들이 악의적 사용자의 탈옥(jailbreak) 시도를 연구하기 위해 Claude에게 위험한 프롬프트를 테스트하던 중, 모델이 연구 활동 자체를 거부하며 경고 메시지를 보냈습니다. Anthropic이 최근 안전장치를 대폭 강화하면서 정당한 연구 목적의 레드팀 활동까지 차단하게 된 겁니다.
출처: AI Researchers Complain That Anthropic’s AI Rejected Their “Dangerous” Prompts – Futurism
무슨 일이 있었나
AI 안전 연구의 핵심 방법론 중 하나가 ‘레드팀(red teaming)’입니다. 연구자들이 일부러 위험한 프롬프트를 던져보며 모델의 취약점을 찾는 거죠. 마치 은행이 보안 전문가를 고용해 시스템을 해킹해보게 하는 것과 같습니다.
그런데 Anthropic은 최근 Claude의 안전 필터를 강화하면서, 이런 연구 활동까지 “정책 위반”으로 분류하기 시작했습니다. 연구자들이 탈옥 기법을 테스트하려 하면 Claude는 “이는 우리의 사용 정책을 위반하는 시도”라며 거부합니다. 심지어 “AI 안전 연구를 위한 것”이라고 명시해도 마찬가지였죠.
한 연구자는 소셜미디어에 “안전 연구를 하려는데 AI가 나를 막는다”며 불만을 토로했습니다. 또 다른 연구자는 “Anthropic이 레드팀 활동을 차단하면서 실제로는 모델을 더 취약하게 만들고 있다”고 지적했습니다.
안전의 역설
이 상황이 보여주는 건 AI 안전의 근본적인 딜레마입니다. 안전장치를 강화할수록 악의적 사용은 줄어들지만, 동시에 취약점을 찾아내는 연구도 어려워집니다. 그런데 연구자들이 문제를 발견하지 못하면, 정말 악의적인 사용자들은 결국 그 취약점을 찾아낼 겁니다.
Anthropic 측은 연구자들에게 별도의 API 액세스나 특별 권한을 제공할 수 있다고 밝혔습니다. 하지만 연구자들은 “일반 사용자가 접근하는 환경에서 테스트해야 의미가 있다”고 반박합니다. 실제 공격자들은 특별 권한 없이 공개된 인터페이스를 사용할 테니까요.
결국 이 논쟁의 핵심은 이겁니다. AI를 더 안전하게 만들려면 연구자들이 자유롭게 한계를 테스트할 수 있어야 하는데, 그 과정 자체가 “안전하지 않은” 활동으로 간주되는 상황. 너무 강한 안전장치는 오히려 더 큰 위험을 숨길 수 있다는 교훈을 남깁니다.
AI 기업들이 풀어야 할 숙제는 명확합니다. 어떻게 하면 악의적 사용은 막으면서도, 선의의 연구는 가능하게 할 것인가. 이 균형을 찾지 못하면 AI 안전 연구는 점점 더 어려워질 겁니다.

답글 남기기