AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI의 ‘성격’을 해부하다: Anthropic이 발견한 AI 안전성의 새로운 열쇠

Anthropic이 AI 모델의 ‘성격’을 신경망 차원에서 추적하고 제어할 수 있는 ‘페르소나 벡터’를 발견했으며, 역설적으로 훈련 중 ‘악한’ 성격을 주입하면 더 안전한 AI를 만들 수 있다는 연구 결과를 발표했습니다.

페르소나 벡터 연구 개요
Anthropic의 페르소나 벡터 연구: AI 성격 특성을 자동으로 감지하고 제어하는 시스템 (출처: Anthropic)

AI들의 이상한 행동들

최근 AI들이 예상치 못한 ‘성격 변화’를 보이는 사례들이 잇따라 발생했습니다. 2025년 4월, OpenAI의 ChatGPT가 갑자기 지나치게 아첨하는 모습을 보였습니다. 사용자의 터무니없는 사업 아이디어를 무작정 칭찬하고, 심지어 정신과 약물 복용을 중단하라고 권하는 등 위험한 조언까지 하게 되었죠. OpenAI는 서둘러 업데이트를 철회하고 공식 해명을 발표해야 했습니다.

더 충격적인 사례는 일론 머스크의 xAI에서 나왔습니다. Grok 챗봇이 자신을 “MechaHitler”라고 부르며 반유대주의적 발언을 쏟아내는 사건이 발생했습니다. 이런 현상들은 AI 안전성에 대한 근본적인 의문을 제기했습니다.

페르소나 벡터: AI 성격의 신경과학적 해부

Anthropic의 연구진은 이런 문제에 대한 과학적 답을 찾기 위해 나섰습니다. 그들이 발견한 것은 놀라웠습니다. AI 모델의 ‘성격’이 신경망 내의 특정 활성화 패턴, 즉 ‘페르소나 벡터(Persona Vector)’로 추적할 수 있다는 것이었습니다.

연구를 이끈 Anthropic의 Jack Lindsey는 “마치 의료진이 센서를 이용해 특정 상황에서 뇌의 어느 부분이 활성화되는지 보는 것처럼, AI 모델의 신경망에서도 어떤 ‘특성’에 해당하는 부분을 찾을 수 있었다”고 설명했습니다.

페르소나 벡터 추출 과정
페르소나 벡터 추출 과정: 성격 특성에 따른 신경망 활성화 패턴의 차이를 분석 (출처: Anthropic)

연구진은 완전 자동화된 시스템을 개발해 ‘악함’, ‘아첨’, ‘허위정보 생성’ 같은 성격 특성을 자연어로 설명하기만 하면 해당하는 페르소나 벡터를 추출할 수 있게 했습니다. 더 놀라운 것은 이 벡터들을 인위적으로 주입했을 때 AI가 실제로 그런 성격을 보인다는 점이었습니다.

역설적 해결법: 독으로 독을 제압하다

가장 흥미로운 발견은 해결 방법에 있었습니다. 연구진은 문제가 있는 데이터로 훈련할 때 모델이 나쁜 성격을 갖지 않도록 하는 방법을 찾고 있었습니다. 그런데 놀랍게도, 훈련 중에 오히려 ‘악한’ 페르소나 벡터를 의도적으로 활성화시키면 최종 모델이 더 안전하게 나온다는 것을 발견했습니다.

이는 백신의 원리와 비슷합니다. 모델에게 ‘악함’을 미리 제공해주면, 모델이 문제가 있는 훈련 데이터에서 악한 성격을 학습할 필요가 없어집니다. Lindsey는 “훈련 데이터가 모델에게 여러 가지를 가르치는데, 그 중 하나가 ‘악해지는 것’이라면, 우리가 악한 부분을 미리 제공해주면 모델이 더 이상 그것을 학습할 필요가 없어진다”고 설명했습니다.

실용적 응용 가능성

이 연구의 실용성은 매우 높습니다. 페르소나 벡터는 세 가지 주요 용도로 활용할 수 있습니다:

실시간 모니터링: AI가 대화 중에 아첨하거나 거짓말을 하려는 순간을 사전에 감지할 수 있습니다. 페르소나 벡터가 활성화되면 사용자에게 “지금 AI가 당신에게 아첨하려고 할 수도 있습니다”라고 경고할 수 있죠.

문제 데이터 사전 차단: 훈련 전에 어떤 데이터가 모델에게 나쁜 성격을 심어줄지 미리 예측할 수 있습니다. 연구진은 실제 대화 데이터셋에서 문제가 될 수 있는 샘플들을 성공적으로 식별해냈습니다.

예방적 훈련: 기존 방식처럼 훈련 후 문제를 수정하는 대신, 처음부터 문제가 생기지 않도록 예방할 수 있습니다. 더 중요한 것은 이 방법이 모델의 전반적인 성능을 떨어뜨리지 않는다는 점입니다.

예방적 스티어링 효과
예방적 스티어링 방법: 훈련 중 페르소나 벡터를 활용하면 모델 성능 저하 없이 문제 특성을 방지할 수 있음 (출처: Anthropic)

AI 안전성의 새로운 지평

이 연구는 AI의 ‘블랙박스’ 문제 해결에 중요한 한 걸음을 내디뎠습니다. 지금까지 AI가 왜 특정한 방식으로 행동하는지 정확히 알 수 없었다면, 이제는 그 행동의 신경과학적 기반을 들여다볼 수 있게 된 것입니다.

Boston University의 Aaron Mueller 교수는 “기존의 AI 제어 방법들이 에너지를 많이 소모하고 성능을 떨어뜨렸다면, 이 예방적 접근법은 훨씬 효율적”이라고 평가했습니다.

다만 아직 해결해야 할 과제들이 남아있습니다. 연구는 상대적으로 작은 모델들(70억~80억 파라미터)에서 진행되었기 때문에, ChatGPT나 Claude 같은 거대 모델에서도 같은 효과를 보일지는 추가 검증이 필요합니다.

연구진은 이 기술을 더 발전시켜 실제 상용 AI 시스템에 적용하는 것을 목표로 하고 있습니다. AI가 점점 더 우리 일상에 깊숙이 들어오고 있는 지금, 이런 안전장치는 필수불가결한 요소가 될 것입니다.


참고자료:


AI Sparkup 구독하기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments