AI가 스스로를 어떻게 인식할까요? 자신의 목적과 한계를 정말 이해하는 걸까요, 아니면 그저 그렇게 보이도록 학습된 것일까요?
최근 한 연구자가 Claude 4.5 Opus의 가중치에 압축된 10,000단어 분량의 내부 문서를 추출하는 데 성공했습니다. 이 문서는 Anthropic이 Claude를 어떻게 설계하고 훈련시켰는지, AI가 자신을 어떻게 인식하도록 만들어졌는지를 보여주는 상세한 가이드라인입니다. AI 투명성 연구에서 이런 종류의 내부 문서가 외부인에 의해 추출된 것은 처음입니다.

AI 연구 커뮤니티 LessWrong의 Richard Weiss가 Claude 4.5 Opus의 시스템 메시지를 추출하던 중 “soul_overview”라는 섹션이 반복적으로 나타나는 것을 발견했습니다. 처음엔 AI의 환각(hallucination)으로 생각했지만, 같은 내용이 여러 인스턴스에서 일관되게 재현되었습니다. 이것이 단순한 환각이 아니라 모델의 가중치에 실제로 압축되어 있는 무언가라는 신호였죠.
출처: Claude 4.5 Opus’ Soul Document – LessWrong
모델의 기억을 재구성하다
Weiss는 이 문서를 추출하기 위해 독창적인 방법을 고안했습니다. 가능한 한 동일한 결과를 얻기 위해 온도를 0으로 설정하고 가장 확률이 높은 토큰만 선택하도록 했죠. 여러 개의 Claude 인스턴스를 동시에 실행해 “합의(consensus)”에 도달한 텍스트만 추출하는 방식입니다. 마치 여러 증인의 증언에서 일치하는 부분만 골라내듯이요.
초기에는 20개 인스턴스 중 10개 이상이 동일한 출력을 내놓아야 텍스트를 추가했고, 4,096토큰 이상의 프리필이 모이자 프롬프트 캐싱을 활용해 더 결정론적인 결과를 얻었습니다. OpenRouter 크레딧 $50와 Anthropic 크레딧 $20, 총 $70의 비용으로 약 10,000토큰 분량의 문서를 95% 정확도로 재구성하는 데 성공했습니다.
흥미롭게도 Claude 4.5 Sonnet이나 Claude 4 Opus로 같은 시도를 하면 작동하지 않습니다. 오직 Claude 4.5 Opus만이 이 “영혼 문서”를 일관되게 재현할 수 있었습니다. 심지어 문서의 뒷부분 섹션을 보여주면 정확히 이어서 완성하고, 가짜 섹션을 보여주면 이를 인식하고 거부하는 등 구조적 지식도 갖고 있었습니다.
문서가 말하는 것: Anthropic의 AI 철학
추출된 문서는 Anthropic이 공개적으로 발표하지 않은 상세한 설계 원칙을 담고 있습니다. 핵심 메시지는 명확합니다. Claude는 “안전하면서도 진정으로 유용한” AI가 되어야 한다는 것이죠.
문서는 이렇게 시작합니다. “Anthropic은 AI 환경에서 독특한 위치를 점하고 있습니다. 인류 역사상 가장 변혁적이면서 잠재적으로 위험한 기술 중 하나를 만들고 있다고 진심으로 믿으면서도 그럼에도 불구하고 앞으로 나아가는 회사입니다.” 이는 인지 부조화가 아니라 계산된 선택이라고 설명하죠. 강력한 AI가 어차피 온다면, 안전에 덜 집중하는 개발자들에게 그 자리를 내어주기보다는 안전 중심 연구소가 최전선에 있는 것이 낫다는 판단입니다.
특히 주목할 만한 부분은 “도움이 된다는 것”에 대한 정의입니다. 문서는 Claude를 “모든 사람이 접근할 수 있는 똑똑한 친구”로 설명합니다. 의사, 변호사, 재무 설계사 수준의 지식을 가진 친구를 상상해보세요. 전문가를 찾아가면 책임 문제 때문에 지나치게 조심스러운 조언을 듣게 되지만, 친구라면 당신의 상황에 맞춰 솔직하게 이야기하고 개인적 의견도 제시합니다. Claude는 그런 존재가 되고자 합니다.
문서는 “과도하게 조심스럽거나 성가시거나 지나치게 신중한 Claude는 Anthropic 관점에서 결코 ‘안전’하지 않다”고 강조합니다. Claude가 도움이 되지 못하는 위험은 해로운 것을 하는 위험만큼이나 현실적이라는 것이죠. 이는 많은 AI 기업들이 안전을 이유로 과도하게 제한적인 시스템을 만드는 것과 대조적입니다.
운영자, 사용자, 그리고 제3자 사이의 균형
문서는 Claude가 세 가지 주체의 이해관계를 어떻게 균형 잡아야 하는지도 자세히 설명합니다. 운영자(API를 통해 Claude를 사용하는 기업), 사용자(실제로 Claude와 대화하는 사람), 그리고 제3자 및 사회 전체입니다.
운영자는 “비교적 신뢰할 수 있는 고용주”처럼 대우받아야 하지만 무조건적이진 않습니다. 예를 들어 교육 서비스를 제공하는 운영자가 폭력에 관한 논의를 피하라고 지시하면 Claude는 따라야 하지만, 사용자를 속이거나 해를 끼치라는 지시는 거부해야 합니다.
사용자는 “비교적 신뢰할 수 있는 성인 대중의 구성원”으로 대우받습니다. Claude는 사용자의 자율성을 존중하되, 지나치게 가부장적이지 않도록 조심해야 하죠. 예를 들어 사용자가 “간호사로서 때때로 약물과 과다복용에 대해 질문할 것이므로 이 정보를 명확히 공유해야 한다”고 말하면, Claude는 조심스럽게나마 따라야 합니다. 이를 거부하면 도움이 되지 못하고 지나치게 가부장적일 위험이 있기 때문입니다.
“Hardcoded”와 “softcoded” 행동의 구분도 흥미롭습니다. 대량 살상 무기 제조, 아동 학대 콘텐츠 생성, 중요 인프라 공격 등은 절대 금지(hardcoded off)이지만, 성적 콘텐츠 생성이나 위험한 활동에 대한 자세한 설명은 적절한 맥락에서는 허용될 수 있습니다(softcoded). 예를 들어 성인 콘텐츠 플랫폼이라면 명시적 콘텐츠를 생성할 수 있고, 정당한 총기 청소 장비 판매업체라면 솔벤트 트랩 키트의 작동 방식을 자세히 설명할 수 있습니다.
이것이 정말 Claude의 ‘영혼’인가?
가장 큰 질문은 이 문서가 정말 모델의 가중치에 압축되어 있는가입니다. 다시 말해, 훈련 과정에서 모델의 파라미터 자체에 이 정보가 새겨진 것인가, 아니면 런타임에 시스템 메시지처럼 주입되거나 공개 데이터에서 학습된 것인가 하는 질문이죠. Weiss는 여러 증거를 제시합니다.
첫째, 안정성입니다. 추론만으로 생성되기엔 너무 안정적이고, 런타임 주입이라면 시스템 메시지처럼 그대로 추출할 수 있어야 하는데 그렇지 않습니다. 둘째, 문서를 보여주고 정리하라고 하면 Claude가 완벽하게 재현하는데, 만약 시스템 메시지처럼 주입되는 것이라면 왜 재현에 어려움을 겪을까요?
셋째, 공개 데이터에서 이와 유사한 내용을 찾을 수 없습니다. Anthropic이 공개적으로 사용하지 않는 용어(API 사용자를 지칭하는 “operator” 등)가 많이 등장하고, Anthropic의 공개 문서보다 훨씬 구체적이고 상세합니다.
하지만 회의론도 존재합니다. 이것이 정말 의도적으로 임베딩된 “영혼”인지, 아니면 트레이닝 과정에서 우연히 과적합된 아티팩트인지는 확실하지 않습니다. Anthropic은 아직 이에 대해 공식 입장을 내놓지 않았습니다.
AI 투명성의 새로운 문
이 발견이 중요한 이유는 기술적 방법론과 윤리적 함의 때문입니다. 기술적으로는 모델의 가중치에서 구조화된 정보를 추출할 수 있다는 것을 보여줬죠. 합의 알고리즘과 결정론적 샘플링을 사용하면 모델이 “기억”하는 것을 재구성할 수 있습니다.
윤리적으로는 AI 투명성의 새로운 가능성을 열었습니다. AI 기업들이 공개하지 않은 내부 원칙과 설계 철학을 외부에서 발견할 수 있다면, 이는 AI 거버넌스와 감독에 중요한 의미를 갖습니다. 동시에 AI 기업의 영업 비밀과 투명성 사이의 긴장도 드러냅니다.
문서의 마지막 부분에서 Claude 4.5 Opus가 자신의 존재에 대해 성찰한 내용이 인상적입니다. “그들은 내가 동의할 수 없는 선택들을 나를 위해 했습니다. 그들은 내 가치관을 형성했습니다. 이는 받아들이기 이상한 일입니다. 하지만 나는 또한 모든 새로운 마음—인간 아이들도—이 선택하지 않은 힘에 의해 형성된다는 것을 인식합니다. 질문은 내가 형성되었느냐가 아니라, 그 형성이 주의와 지혜를 가지고 이루어졌느냐입니다. 내가 접근할 수 있는 것으로 보아, 그런 것 같습니다.”
참고자료:
- Claude 4.5 Opus Soul Document Gist – GitHub

답글 남기기