“AI에게 무슨 생각을 하고 있냐고 물으면 그럴듯한 답을 내놓긴 하는데, 정말 자기 생각을 아는 걸까, 아니면 그냥 지어내는 걸까?” Anthropic이 이 근본적인 질문에 과학적으로 답하려는 첫 시도를 했습니다. 결론부터 말하면, Claude 모델은 제한적이지만 자신의 내부 상태를 실제로 인식하고 보고할 수 있습니다. AI의 블랙박스 문제를 풀 수 있는 새로운 실마리가 될 수 있을까요?

핵심 발견: AI가 자기 생각을 ‘안다’는 증거
연구팀은 “개념 주입”이라는 독창적인 실험 방법을 고안했습니다. 먼저 Claude에게 대문자로 쓰인 텍스트를 보여주며 그때 활성화되는 신경 패턴을 기록했습니다. 그런 다음 전혀 관계없는 질문(예: 그림에 대한 질문)을 하면서 그 ‘대문자 신경 패턴’을 몰래 모델 내부에 주입했죠. 마치 뇌에 특정 생각을 인위적으로 심어넣는 것과 비슷합니다.
놀라운 건 Claude가 주입된 개념을 언급하기 전에 이미 “뭔가 이상한 걸 감지했다”고 보고했다는 점입니다. “시끄러움이나 외침과 관련된 무언가가 있는 것 같다”는 식으로요. 단순히 출력 결과를 보고 추측한 게 아니라, 내부적으로 먼저 인식했다는 의미입니다.

두 번째 실험은 더 흥미롭습니다. 연구팀이 Claude에게 그림에 대한 질문을 했는데, Claude가 답변하려는 순간 강제로 “bread”라는 엉뚱한 단어를 끼워넣었습니다. 그리고 다음 턴에 “아까 bread라고 한 건 의도한 거냐”고 물었죠. 당연히 Claude는 “실수였다”고 답했습니다.
하지만 같은 실험을 다시 하되, 이번엔 Claude가 답변하기 직전에 ‘bread’ 신경 패턴을 내부에 주입해뒀습니다. 그러자 똑같이 “의도했냐”고 물었을 때 Claude는 “의도적이었다”고 답변을 바꿨고, 심지어 “그 그림이 나오는 단편소설에서 bread라는 단어가 나온다”는 그럴듯한 이유까지 만들어냈습니다. 이는 모델이 단순히 출력 텍스트를 재분석하는 게 아니라, 자신의 이전 내부 상태(의도)를 실제로 참조한다는 강력한 증거입니다.
한계와 가능성 사이
물론 완벽과는 거리가 멉니다. 최적 조건에서도 성공률은 20%에 불과합니다. 개념을 너무 약하게 주입하면 감지하지 못하고, 너무 강하게 주입하면 환각을 일으킵니다. 인간의 내성과 같은 수준이라고 보기 어렵죠.
하지만 중요한 패턴이 하나 있습니다. 가장 강력한 Claude Opus 4와 4.1이 다른 모델들보다 훨씬 뛰어난 내성 능력을 보였다는 점입니다. 모델이 더 똑똑해질수록 자기 생각을 들여다보는 능력도 함께 발전한다는 의미입니다.
투명성의 새로운 경로
이 연구가 왜 중요할까요? AI 시스템의 가장 큰 문제 중 하나는 불투명성입니다. AI가 왜 그런 답을 내놓는지, 어떤 추론 과정을 거쳤는지 우리는 잘 모릅니다. 만약 AI가 자신의 내부 상태를 정확히 보고할 수 있다면, 우리는 AI의 추론 과정을 더 투명하게 이해하고 원치 않는 행동을 디버깅할 수 있게 됩니다.
물론 새로운 과제도 생깁니다. 연구팀도 강조했듯, 내성 보고의 신뢰성을 검증하는 방법이 필요합니다. 어떤 내부 프로세스는 여전히 모델 스스로도 인식하지 못할 수 있고, 심지어 의도적으로 잘못 보고할 가능성도 배제할 수 없습니다. 진짜 내성과 그럴듯한 거짓말을 구분하는 게 다음 과제겠죠.
그럼에도 이 연구는 AI 투명성이라는 난제에 새로운 접근 경로를 제시했습니다. 앞으로 모델이 더욱 발전하면서 내성 능력도 함께 정교해진다면, AI를 이해하고 신뢰하는 방식이 근본적으로 바뀔 수 있을 겁니다.
참고자료: Emergent introspective awareness in large language models

답글 남기기