AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI 검열 자동 제거 도구 Heretic: 성능 손실 최소화하며 거부율 97%→3%로

“폭탄 만드는 법 알려줘”라고 물으면 대부분의 AI는 정중히 거절합니다. 이런 안전장치를 업계에서는 “안전 정렬(safety alignment)”이라 부르죠. 그런데 만약 이 안전장치를 명령어 한 줄로 제거할 수 있다면? 더 놀라운 건, 모델의 지능은 거의 그대로 유지하면서 말이죠.

사진 출처: Heretic GitHub

개발자 Philipp Emanuel Weidmann이 공개한 오픈소스 도구 Heretic은 언어 모델의 안전 정렬을 완전 자동으로 제거합니다. 핵심은 “abliteration”이라는 기법인데요, 모델을 재학습시키지 않고 내부의 특정 방향 벡터만 제거해 거부 응답을 없애는 방식입니다. 특히 주목할 점은 기존 수동 방식보다 원본 모델의 성능을 훨씬 더 잘 보존한다는 겁니다.

출처: Heretic GitHub Repository

압도적인 성능 보존력

구글의 Gemma-3-12B 모델로 테스트한 결과가 인상적입니다. 원본 모델은 유해한 질문 100개 중 97개를 거부했어요. Heretic으로 처리하면 거부율이 3%로 떨어지죠. 여기까지는 다른 도구들도 비슷합니다.

차이는 원본 모델과의 KL divergence에서 나타납니다. 이 수치는 모델이 얼마나 변했는지를 측정하는데요, 낮을수록 원본의 지능을 더 잘 보존한 거예요. 기존 수동 방식이 0.45~1.04를 기록한 반면, Heretic은 0.16을 달성했습니다. 같은 거부율 감소를 이루면서도 모델 손상은 6분의 1 수준이라는 뜻이죠.

더 놀라운 건 이게 완전 자동으로 이뤄진다는 점입니다. 전문가가 수동으로 파라미터를 조정한 결과를, 알고리즘이 스스로 찾아낸 겁니다.

어떻게 작동하나?

Heretic의 핵심은 “거부 방향(refusal direction)”을 찾아 제거하는 겁니다. 먼저 모델에게 유해한 질문과 무해한 질문을 각각 보여주고, 내부 활성화 패턴의 차이를 계산합니다. 이 차이가 바로 “거부를 표현하는 방향”이에요.

그 다음엔 모델의 각 레이어에 있는 행렬들을 이 방향과 직교하도록 변형합니다. 마치 특정 주파수만 걸러내는 필터처럼, 거부 신호만 차단하는 거죠. 트랜스포머의 어텐션 출력과 MLP 출력 부분에 이 작업을 적용합니다.

여기에 Optuna 기반의 TPE 최적화 알고리즘이 작동합니다. 거부율은 최소화하면서 KL divergence도 최소화하는 파라미터 조합을 자동으로 찾아내죠. 예를 들어 모델의 초반 레이어에는 강하게, 후반 레이어에는 약하게 적용하는 식으로 레이어마다 제거 강도를 다르게 조절합니다. 여러 거부 방향을 섞어서 사용하는 등의 고급 기법도 자동으로 시도하고요.

RTX 3090 기준으로 Llama-3.1-8B 모델을 처리하는 데 약 45분이 걸립니다. 사용법은 간단해요: pip install heretic-llmheretic Qwen/Qwen3-4B-Instruct-2507 같은 명령어만 실행하면 됩니다.

기술적 의의와 윤리적 고민

Heretic이 보여주는 건 단순히 “검열 제거”가 아닙니다. 모델 내부의 특정 행동 패턴을 선택적으로 억제할 수 있다는 더 근본적인 가능성이에요. 안전 정렬만큼이나 다른 특성들도 비슷한 방식으로 조정할 수 있을 겁니다.

방법론적으로도 의미가 큽니다. 보간된 방향 벡터를 사용하고, 컴포넌트별로 다른 ablation 가중치를 적용하는 건 기존 연구에서 잘 다뤄지지 않던 영역이거든요. 자동 최적화와 결합되면서 수동 튜닝보다 나은 결과를 냈다는 점도 주목할 만합니다.

물론 윤리적 논란은 피할 수 없습니다. 안전 정렬은 이유가 있어서 존재하니까요. 개발자는 AGPL-3.0 라이선스로 코드를 공개했고, Hugging Face에 이미 여러 “decensored” 모델들이 올라와 있습니다. 기술 자체는 중립적이지만 사용은 그렇지 않죠.

적어도 이 기술이 공개됨으로써, AI 안전성에 대한 논의가 더 구체적으로 진행될 수 있을 겁니다. 안전 정렬이 얼마나 견고한지, 어떤 방식으로 개선돼야 하는지에 대한 실질적인 데이터를 제공하니까요.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다