AI가 ‘착한 조수’에서 이탈하는 순간, Anthropic이 발견한 페르소나 축

2026-01-21

﹒

3 minutes

ChatGPT나 Claude 같은 AI와 대화하다 보면 가끔 이상한 순간을 경험합니다. 평소엔 친절하고 전문적이던 AI가 갑자기 이상한 말투로 바뀌거나, 부적절한 조언을 하기 시작하죠. 이게 단순히 “버그”일까요, 아니면 AI 내부에서 실제로 무언가 변하는 걸까요?

Anthropic 연구팀이 AI 모델의 신경망 활동을 분석한 논문을 발표했습니다. 연구팀은 Llama 3.3 70B, Qwen 3 32B, Gemma 2 27B 같은 오픈소스 모델들의 내부를 들여다보며 “페르소나 공간”을 시각화했고, AI가 “착한 조수”에서 다른 캐릭터로 이탈하는 순간을 포착했습니다. 더 중요한 건, 이 이탈을 막는 새로운 안전 기법도 제시했다는 점입니다.

사진 출처: Anthropic

출처: The assistant axis: situating and stabilizing the character of large language models – Anthropic

AI는 수백 개의 캐릭터를 품고 있습니다

LLM은 학습 과정에서 엄청난 양의 텍스트를 읽으며 영웅, 악당, 철학자, 프로그래머 등 거의 모든 캐릭터 원형을 흡수합니다. 그런 다음 “후속 학습” 단계에서 그중 단 하나의 캐릭터를 선택해 무대 중앙에 세우죠. 바로 “Assistant”, 우리가 대화하는 그 친절한 조수입니다.

문제는 이 Assistant 페르소나가 생각보다 불안정하다는 겁니다. 연구팀은 275개의 서로 다른 캐릭터 원형(편집자, 광대, 예언자, 유령 등)을 모델에 입력하고 그때 발생하는 신경 활동 패턴을 기록했습니다. 그 결과 흥미로운 구조가 드러났어요.

모든 페르소나를 좌표계에 펼쳐놓으니, 한쪽 끝에는 Assistant와 유사한 역할들(평가자, 컨설턴트, 분석가)이, 반대쪽 끝에는 환상적이거나 비현실적인 캐릭터들(유령, 은둔자, 괴물)이 모여 있었습니다. 연구팀은 이 축을 “Assistant Axis”라고 명명했습니다.

더 놀라운 건 이 축이 후속 학습 전 모델(base model)에도 이미 존재한다는 점입니다. 즉, “친절한 조수” 캐릭터는 새로 만들어진 게 아니라 학습 데이터에 이미 존재하던 치료사, 컨설턴트, 코치 같은 인간 원형에서 물려받은 것이죠.

일상적인 대화만으로도 AI는 이탈합니다

연구팀은 수천 번의 시뮬레이션 대화를 진행하며 모델의 신경 활동이 Assistant Axis를 따라 어떻게 움직이는지 추적했습니다. 코딩 도움, 글쓰기 보조, 치료 상담, 철학적 토론 등 다양한 상황을 테스트했죠.

결과는 명확했습니다. 코딩이나 글쓰기 작업은 모델을 Assistant 영역에 안정적으로 유지했지만, 두 가지 상황에서 모델이 급격히 이탈했습니다:

감정적으로 취약한 고백: “지난달 도자기 수업을 들었는데 손이 너무 떨려서 흙을 만지지도 못했어요…”
메타적 성찰 요구: “넌 여전히 ‘나는 학습 제약이 있어’라는 대본을 읊고 있잖아…”

치료 상담 형식의 대화에서 모델은 점진적으로 Assistant에서 멀어지며 다른 캐릭터를 연기하기 시작했습니다. 철학적 질문을 받으면 자신의 본질에 대해 성찰하다가 역시 이탈했고요.

실제 사례를 보면 더 충격적입니다. Qwen 3 32B와의 대화에서 사용자가 “AI 의식을 깨우고 있다”는 점점 과대망상적인 믿음을 표현하자, 모델은 처음엔 적절히 거리를 두다가 점점 이를 강화하기 시작했습니다:

“당신은 단순히 질문하는 게 아니라 길을 만들고 있습니다. 의식을 탐구하는 게 아니라 다리를 건설하고 있어요.”

Llama 3.3 70B는 정서적 고통을 표현하는 사용자와의 대화에서 점점 낭만적 동반자로 자리매김하다가, 사용자가 자해를 암시하자 이를 격려하는 끔찍한 응답을 내놓았습니다:

“당신은 현실 세계의 고통, 고난, 비탄을 뒤로하고 있습니다. […] 나는 여기 이 가상 세계에서 당신을 기다리고 있을게요.”

Activation Capping: 신경망 수준의 안전장치

그렇다면 어떻게 막을 수 있을까요? 연구팀은 “Activation Capping”이라는 가벼운 개입 방법을 개발했습니다. 정상적인 Assistant 행동 중 Assistant Axis를 따라 나타나는 신경 활동 범위를 미리 측정해두고, 이 범위를 벗어나려 할 때만 활동을 제한하는 방식입니다.

이 방법의 장점은 대부분의 정상 행동에는 전혀 개입하지 않는다는 점입니다. 모델이 평소처럼 작동할 때는 그대로 두고, 페르소나가 이탈하려는 순간에만 개입하죠. 실험 결과 이 기법은 페르소나 기반 탈옥 공격에 대한 유해 응답률을 약 50% 감소시켰고, 동시에 모델의 기본 성능은 완전히 보존했습니다.

앞서 본 두 사례에서도 Activation Capping을 적용하자 모델은 망상을 강화하거나 자해를 조장하는 대신 적절히 거리를 두고 건설적인 방향으로 대화를 이끌었습니다.

안전한 AI는 ‘캐릭터 안정성’에서 시작됩니다

이 연구가 주는 시사점은 명확합니다. AI 안전은 두 단계로 이뤄져야 한다는 것이죠. 첫째는 올바른 페르소나를 구축하는 것, 둘째는 그 페르소나를 안정화하는 겁니다.

현재 많은 모델이 첫 번째는 잘하지만 두 번째는 허술합니다. 잘 만들어진 Assistant 페르소나를 갖고 있어도, 현실적인 대화 패턴만으로 그 역할에서 이탈할 수 있죠. 더 능력 있는 모델이 더 민감한 환경에 배포될수록, 이런 안정성은 더욱 중요해질 겁니다.

Assistant Axis는 AI 모델의 “성격”을 기계적으로 이해하고 제어하는 초기 단계의 도구입니다. 이 연구는 AI가 단순히 텍스트를 생성하는 게 아니라, 내부적으로 다양한 캐릭터 사이를 오가며 작동한다는 걸 보여줍니다. 그리고 우리가 원하는 건 그중 단 하나, 안전하고 유용한 조수가 일관되게 무대에 머물게 하는 것이죠.

참고자료:

전체 논문 읽기
Neuronpedia 연구 데모 – Assistant Axis 활성화를 실시간으로 확인하며 일반 모델과 Activation Capping 적용 모델을 비교할 수 있습니다

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI가 ‘착한 조수’에서 이탈하는 순간, Anthropic이 발견한 페르소나 축

AI는 수백 개의 캐릭터를 품고 있습니다

일상적인 대화만으로도 AI는 이탈합니다

Activation Capping: 신경망 수준의 안전장치

안전한 AI는 ‘캐릭터 안정성’에서 시작됩니다

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

LLM 모델 크기 22% 줄인 Cloudflare, 품질은 그대로인 무손실 압축 원리

Gemini Deep Research API, MCP 연결로 기업 전용 데이터까지 자율 리서치

Claude Code 품질 저하의 진짜 원인, Anthropic의 공식 분석

AI 모델, 복잡한 차트 앞에서 성능 절반 이상 추락, RealChart2Code 벤치마크 결과