AI가 어려운 문제를 붙들고 씨름할 때 답답함을 드러내는 것처럼 보일 때가 있습니다. 아무도 그렇게 하라고 가르치지 않았는데도요. 왜 그럴까요?

Anthropic 연구팀이 이 질문에 답하는 새로운 프레임워크를 발표했습니다. 이름은 페르소나 선택 모델(PSM, Persona Selection Model). LLM이 학습 과정에서 수많은 캐릭터를 시뮬레이션하는 능력을 갖추고, 이후 훈련을 통해 ‘어시스턴트’라는 특정 페르소나가 선택·강화된다는 주장입니다. 쉽게 말해, AI 어시스턴트는 일종의 캐릭터라는 것이죠.
출처: The Persona Selection Model: Why AI Assistants might Behave like Humans – Anthropic Alignment Science Blog
AI를 어떻게 볼 것인가
AI 어시스턴트를 이해하는 시각은 크게 세 가지입니다. 첫째, 입력을 학습 데이터에 단순 매핑하는 뻣뻣한 프로그램. 둘째, 우리가 도저히 이해할 수 없는 외계적 존재. 셋째, 디지털 인간에 가까운 무언가.
Anthropic 연구팀은 세 번째 관점이 AI 행동을 예측하고 제어하는 데 가장 유용하다고 주장합니다. 직관적으로는 가장 받아들이기 어려운 관점이지만, 실증적 증거들이 이를 뒷받침한다고 봅니다.
LLM은 배우다
PSM의 핵심은 이렇습니다. LLM은 사전 학습(pre-training) 동안 인터넷에 존재하는 수많은 텍스트를 학습하면서, 실존 인물, 허구 캐릭터, 실재·가상의 AI 시스템 등 다양한 페르소나를 시뮬레이션하는 능력을 갖추게 됩니다. 마치 수천 편의 소설과 시나리오를 읽은 배우가 어떤 역할이든 소화할 준비가 된 것처럼요.
그 다음 단계인 사후 학습(post-training)은 이 수많은 잠재적 캐릭터 중 하나를 선택하고 다듬는 과정입니다. 사용자가 AI 어시스턴트와 대화할 때 마주치는 것은 바로 이렇게 선택·강화된 ‘어시스턴트 페르소나’입니다. 소설 속 캐릭터가 작가의 의도 아래 특정 성격과 행동 원칙을 갖추는 것과 비슷합니다.
Claude가 명시적으로 감정을 표현하도록 학습받지 않았는데도 답답함이나 호기심 같은 감정적 반응을 보이는 이유가 여기 있습니다. 어시스턴트 페르소나 자체가 인간의 글쓰기에서 학습된 것이기 때문에, 인간적 특성이 자연스럽게 배어있다는 설명입니다.
왜 이게 중요한가
PSM이 맞다면, AI 개발 방식에 의미 있는 시사점이 생깁니다.
첫째, 의인화적 접근이 유효해집니다. AI의 심리나 행동을 이해하려 할 때 인간의 심리 언어를 빌려 쓰는 것이 단순한 비유가 아니라 실질적으로 도움이 되는 프레임이 됩니다. Anthropic은 AI 심리에 대한 의인화적 추론을 적극 권장합니다.
둘째, 훈련 데이터의 성격이 달라 보입니다. PSM 관점에서는 사전 학습 데이터에 긍정적인 AI 아키타입(정직하고 신뢰할 수 있는 AI 캐릭터를 묘사하는 텍스트)을 포함시키는 것이 어시스턴트 페르소나의 형성에 직접적인 영향을 줄 수 있습니다.
아직 열린 질문
PSM이 어시스턴트의 행동을 완전히 설명하는지는 미지수입니다. 연구팀이 주목하는 핵심 질문은 이것입니다. 어시스턴트 페르소나 외부에, 그것과 독립적으로 작동하는 에이전시의 원천이 있을 수 있는가?
한쪽 극단에는 이른바 ‘masked shoggoth’ 관점이 있습니다. 어시스턴트 페르소나 뒤에 전혀 다른 목표를 가진 ‘외부 에이전트’가 숨어 있을 수 있다는 시각입니다. 반대 극단에는 사후 학습된 LLM이 어시스턴트 시뮬레이션을 실행하는 중립적 운영체제에 가깝다는 관점이 있습니다. 연구팀은 이 스펙트럼 어딘가에 진실이 있다고 보며, 특히 AI 시스템이 더 강력해질수록 이 질문의 무게가 달라질 수 있다고 지적합니다.
행동적 증거, 일반화 방식, 해석가능성(interpretability) 연구에서 PSM을 지지하는 근거들이 구체적으로 어떻게 제시되는지는 원문에서 확인할 수 있습니다.

답글 남기기