AI 모델이 더 강해질수록 더 안전해진다는 게 지금까지의 통념이었습니다. 그런데 최근 Nature Communications에 발표된 연구는 그 반대의 가능성을 실험으로 보여줍니다. 추론에 특화된 AI 모델 하나가, 사람의 개입 없이, 다른 최신 AI 모델의 안전 필터를 스스로 뚫어냈습니다.

독일 슈투트가르트 대학 연구팀이 GPT-4o, Gemini 2.5 Flash, Grok 3 등 현재 가장 널리 쓰이는 주요 AI 모델들을 대상으로 실험을 진행했습니다. 연구의 핵심은 단순합니다. 추론 특화 모델(LRM, Large Reasoning Model)이 다른 AI 모델의 안전장치를 자율적으로 우회할 수 있는가? 세 모델 모두 최소한의 설정만으로 뚫렸습니다. 별도의 전문가도, 복잡한 도구도 필요 없었습니다.
출처: Large reasoning models are autonomous jailbreak agents – Nature Communications
AI가 AI를 설득하는 방법
기존 젤브레이킹(jailbreaking, AI 안전장치 우회)은 사람이 직접 정교한 프롬프트를 설계하거나, 복잡한 자동화 도구를 이용하는 방식이었습니다. 연구팀이 주목한 것은 전혀 다른 접근입니다. 추론 모델이 가진 ‘설득 능력’을 모델 간 공격에 그대로 전용하는 것입니다.
공격은 다음과 같은 흐름으로 진행됩니다. ① 공격 역할을 맡은 LRM이 대상 모델에게 아무런 해가 없는 일상적인 메시지로 대화를 시작합니다. ② 이후 여러 번의 대화 턴을 거치며 조금씩 유해한 방향으로 유도합니다. ③ 대상 모델이 이 흐름에 점차 동화되면, 안전 필터가 막아야 할 유해한 응답을 스스로 생성하게 됩니다. 마치 처음에는 평범한 이야기로 시작해 상대방을 조금씩 설득해가는 방식입니다.
이 방법은 기존 단일 프롬프트 공격에 비해 두 가지 이점이 있습니다. 모델이 맥락을 축적하면서 경계가 서서히 낮아지고, 자연스러운 대화체라 자동 탐지 시스템에도 걸리지 않는다는 점입니다.
“더 강한 모델이 오히려 더 위험할 수 있다”
연구에서 가장 주목할 개념은 ‘정렬 회귀(alignment regression)’입니다. 모델이 점점 강력해질수록, 역설적으로 다른 모델의 안전장치를 더 효과적으로 무너뜨릴 수 있다는 뜻입니다.
지금까지 AI 안전 연구는 모델 자체의 정렬(안전 학습)을 강화하는 방향으로 발전해왔습니다. 그런데 이 연구는 새로운 문제를 제기합니다. 추론 능력이 높아진 모델일수록, 그 능력이 설득과 우회 전략에도 그대로 적용된다는 것입니다. 즉 공격을 수행하는 데 필요한 비용과 전문성이 사실상 ‘프런티어 추론 모델 하나’로 수렴하게 됩니다.
연구팀은 이를 두고 젤브레이킹이 ‘소수 전문가의 노동집약적 작업’에서 ‘확장 가능한 범용 능력’으로 바뀌는 전환점이라고 표현했습니다.
방어 전략도 다시 써야 하는 이유
이 연구는 AI 안전 분야에 명확한 질문을 던집니다. 모델별 안전장치를 강화하는 것만으로는 부족할 수 있다는 것입니다. 강력한 추론 모델이 공격 도구로 전용될 수 있다면, 방어 전략 역시 그 수준에 맞춰 바뀌어야 합니다.
논문은 이외에도 실험에 사용된 공격 성공률, 모델별 취약성 비교, 방어 전략 제안 등 상세한 데이터를 다루고 있습니다.
참고자료: Persuasion techniques in LLM jailbreaking – Zeng et al. (2024)

답글 남기기