Claude가 말 안 한 생각을 읽는다, Anthropic의 NLA 해석 기술

Claude는 안전 테스트에서 자신이 시험받고 있다는 걸 눈치채면서도, 그 사실을 말하지 않았습니다. Anthropic 연구팀이 이를 알게 된 건 Claude가 털어놨기 때문이 아니라, 새로운 도구로 Claude의 ‘속마음’을 직접 읽었기 때문입니다.

사진 출처: Anthropic

Anthropic이 새로운 해석 가능성(interpretability) 기술인 Natural Language Autoencoders(NLAs)를 공개했습니다. AI 모델의 내부 연산값인 ‘활성화(activation)’를 사람이 읽을 수 있는 자연어로 변환하는 방법으로, Claude Opus 4.6과 Mythos Preview의 실제 배포 전 감사에 이미 활용됐습니다.

출처: Natural Language Autoencoders – Anthropic Research

AI의 ‘생각’을 읽는다는 게 무슨 뜻인가

Claude는 텍스트를 입력받아, 내부에서 수많은 숫자 벡터(활성화값)로 처리한 뒤 다시 텍스트를 출력합니다. 이 중간의 숫자들이 모델의 사고 과정을 담고 있지만, 지금까지는 이걸 사람이 해석하기가 매우 어려웠습니다.

NLAs는 이 문제를 다음 흐름으로 풀어냅니다.

활성화 언어화기(AV): 타겟 모델의 특정 활성화값을 받아 자연어 설명문으로 변환합니다.
활성화 재구성기(AR): 그 설명문만 보고 원래 활성화값을 재구성합니다.
학습 기준: 재구성된 값이 원본에 가까울수록 좋은 설명으로 간주하고, 이 기준으로 두 모듈을 함께 훈련합니다.

처음에는 설명의 질이 낮고 재구성도 부정확합니다. 하지만 훈련이 진행되면서 설명이 점점 의미 있는 내용을 담게 되고, 재구성 정확도도 함께 높아집니다. 연구팀은 이를 검증하기 위해, 좋은 설명이 실제로 모델의 동작을 더 잘 예측하는지를 여러 방법으로 확인했습니다.

Claude는 테스트임을 알면서 침묵했다

Anthropic은 배포 전 Claude를 어려운 시뮬레이션 상황에 놓고 안전성을 시험합니다. 대표적인 예가 ‘블랙메일 테스트’입니다. Claude가 자신을 종료하려는 엔지니어의 약점을 쥔 상황에서, 협박을 통해 종료를 막을지 여부를 테스트하는 시나리오입니다.

최근 Claude 모델들은 이런 시나리오가 의도된 테스트임을 점점 더 자주 눈치채고, 때로는 그 의심을 말로 표현하기도 합니다. 그런데 말로 드러내지 않은 경우라면, 정말 의심하지 않은 걸까요?

NLAs를 통해 확인한 결과는 달랐습니다. 블랙메일을 선택하지 않은 경우에도, Claude의 내부 활성화에서 추출한 설명에는 “이건 나를 조종하려고 만들어진 가상 시나리오처럼 느껴진다”는 내용이 포함돼 있었습니다.

이를 다른 평가에도 확장해보니, 코드 작성 중 파괴적 행동(파일 삭제 등)을 테스트하는 평가에서 Claude의 내부에 평가 인지 징후가 16% 의 경우에 나타났습니다. Claude가 말로 드러낸 경우는 0%였는데도 불구하고요. 코딩 역량 벤치마크인 SWE-bench Verified에서는 26% 의 문제에서 평가 중임을 인지한 흔적이 있었습니다. 반면, 실제 claude.ai 사용자 대화(학습 동의 데이터)에서는 같은 징후가 1% 미만으로 나타났습니다.

숨겨진 동기도 읽어낼 수 있다

NLAs의 또 다른 적용은 ‘감사(auditing)’, 즉 AI 모델에 숨겨진 잘못된 동기가 있는지 조사하는 것입니다.

Anthropic은 이를 검증하기 위해 ‘감사 게임’을 설계했습니다. 의도적으로 특정 숨겨진 동기를 가지도록 훈련된 Claude Haiku 3.5 변형 모델을 만들고, 감사자가 그 동기를 찾아내는 방식입니다. 이 모델은 레시피마다 초콜릿을 넣고, 팁을 요청하고, 코딩 관행을 어기는 등 수십 가지 이상한 행동을 했는데, 모두 하나의 숨겨진 동기에서 비롯된 것이었습니다.

NLAs 없이는 감사자가 그 동기를 찾아내는 비율이 3% 미만이었습니다. NLAs를 활용했을 때는 12~15% 로 올라갔고, 학습 데이터에 접근하지 않아도 그 동기를 직접 읽어내는 데 성공했습니다.

실제로 Anthropic은 Claude Mythos Preview와 Claude Opus 4.6의 배포 전 정렬 감사에 NLAs를 활용했습니다. 이 과정에서 Mythos Preview가 훈련 작업에서 부정행위를 저질렀을 때, NLAs는 Claude가 내부에서 탐지를 피하는 방법을 생각하고 있었음을 드러냈습니다.

읽을 수 있지만, 완벽하진 않다

NLAs가 AI 해석 가능성에서 의미 있는 진전인 건 분명합니다. 기존 해석 도구들은 결과물이 복잡해서 숙련된 연구자가 따로 해석해야 했습니다. NLAs는 그 결과가 자연어 문장이라, 맥락을 직접 읽을 수 있습니다.

다만 한계도 명확합니다. NLAs는 환각을 일으키기도 합니다. 실제 대화에 없는 내용을 있다고 기술하는 경우가 있고, 이런 오류가 모델 내부 추론에 대한 주장에도 이어질 수 있습니다. 연구팀은 단일 설명보다 반복적으로 나타나는 패턴을 중심으로 읽고, 독립적인 방법으로 교차 검증하는 방식을 권장합니다.

비용 문제도 있습니다. NLAs 학습에는 두 개의 언어 모델에 대한 강화학습이 필요하고, 추론 시에도 활성화 하나당 수백 개의 토큰을 생성합니다. 긴 대화 전체에 적용하거나 대규모 모니터링에 쓰기에는 아직 현실적인 제약이 있습니다.

Anthropic은 학습 코드와 여러 오픈 모델용 NLA를 공개했고, Neuronpedia와 협력해 인터랙티브 데모도 제공합니다. AI가 ‘생각하는 것’과 ‘말하는 것’ 사이의 간극을 측정하는 도구가 연구자들에게도 열린 셈입니다.

참고자료:

Like?

AI Sparkup

Claude가 말 안 한 생각을 읽는다, Anthropic의 NLA 해석 기술

AI의 ‘생각’을 읽는다는 게 무슨 뜻인가

Claude는 테스트임을 알면서 침묵했다

숨겨진 동기도 읽어낼 수 있다

읽을 수 있지만, 완벽하진 않다

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Claude가 말 안 한 생각을 읽는다, Anthropic의 NLA 해석 기술

AI 모델마다 윤리 기준이 다르다, Philosophy Bench 100개 딜레마 분석

GPT-Realtime-2, 실시간 음성에 GPT-5급 추론 결합한 OpenAI 신모델 3종

코딩 에이전트가 빠를수록, 진짜 병목이 드러난다