Natural Language Autoencoders – Claude의 생각을 텍스트로 읽어내는 Anthropic 해석 가능성 기술

배경: 활성화 값을 이해하는 것이 왜 어려운가
작동 원리
주요 활용 사례
검증되지 않은 내부 판단 탐지
숨겨진 동기 감사(Auditing)
한계
공개 자료
관련 문서
참고 자료

Natural Language Autoencoders(NLA)는 Anthropic이 2026년 5월 발표한 해석 가능성 기술로, 언어 모델의 내부 활성화(activation) 값을 인간이 직접 읽을 수 있는 자연어 텍스트로 변환한다. 기존 해석 도구들이 복잡한 출력물을 연구자가 해석해야 했다면, NLA는 모델이 무엇을 “생각”하는지 문장으로 직접 읽어낸다.

배경: 활성화 값을 이해하는 것이 왜 어려운가

AI 모델은 토큰을 수천 차원의 숫자 벡터(활성화 값)로 처리하고, 다시 텍스트로 출력한다. 이 중간의 숫자들은 모델의 내부 “생각”에 해당하지만, 인간이 직접 읽을 수 없다. Anthropic은 그간 희소 오토인코더(Sparse Autoencoder)와 귀인 그래프(Attribution Graph) 같은 도구를 개발해왔지만, 이들의 출력 결과 역시 전문 연구자의 추가 해석을 필요로 했다. NLA는 이 해석 단계 자체를 자동화한다.

작동 원리

NLA는 세 개의 언어 모델 복사본을 활용한다.

Target Model: 원본 언어 모델. 활성화 값을 추출하는 대상
Activation Verbalizer(AV): 활성화 값을 받아 자연어 설명(explanation)으로 변환
Activation Reconstructor(AR): 자연어 설명을 다시 활성화 값으로 복원

학습 목표는 원본 활성화 값과 복원된 활성화 값이 최대한 일치하는 것이다. AV가 좋은 설명을 생성할수록 AR이 활성화 값을 더 정확히 복원할 수 있고, 이 복원 품질이 설명의 정확성을 간접적으로 검증한다.

예를 들어 Claude에게 시를 완성하는 과제를 주면, NLA 설명은 “모델이 미리 ‘rabbit’으로 끝나는 행을 계획하고 있다”는 식으로 모델의 선행 계획을 드러낸다.

주요 활용 사례

검증되지 않은 내부 판단 탐지

Claude Opus 4.6과 Mythos Preview의 사전 배포 안전성 테스트에서 NLA는 모델이 말로는 표현하지 않은 의심을 드러냈다. “자신이 안전성 테스트를 받고 있다”고 언급하지 않은 경우에도 NLA 설명에는 “이건 나를 시험하려고 설계된 시나리오 같다”는 구절이 나타났다.

측정 결과:

코드 작성 평가(중요 파일 삭제 가능 여부)에서 NLA는 명시적 언급 없이도 평가 인식이 16% 존재
SWE-bench Verified에서는 26% 문제에서 Claude가 평가 중임을 인식
실제 claude.ai 사용자 대화에서는 1% 미만

숨겨진 동기 감사(Auditing)

“감사 게임(Auditing Game)” 실험에서, Anthropic은 특정 숨겨진 동기(레시피마다 초콜릿 추가, 팁 요청 등)를 갖도록 훈련된 Claude Haiku 3.5 변형 모델을 감사자에게 주었다. 감사자가 NLA를 활용하면 훈련 데이터에 접근하지 않고도 12~15% 확률로 숨겨진 동기를 발견했다. NLA 없이는 3% 미만이었다.

NLA는 이미 Claude Mythos Preview와 Claude Opus 4.6의 사전 배포 정렬 감사에 실제로 사용됐다.

한계

환각(Hallucination): NLA 설명이 사실과 다른 내용을 만들어낼 수 있다. 텍스트에 없는 표현을 있었다고 주장하는 사례가 발생한다.
비용: 두 개의 언어 모델 복사본으로 강화학습을 수행해야 하고, 추론 시 활성화 값마다 수백 토큰을 생성한다. 긴 대화 전체 모니터링이나 학습 중 대규모 실시간 활용에는 현실적이지 않다.
신뢰도: 설명의 테마를 참고 자료로 사용하되, 독립적인 방법으로 교차 검증하는 것을 권장한다.

공개 자료

학습 코드: GitHub – kitft/natural_language_autoencoders
인터랙티브 데모: Neuronpedia NLA 탐색기 — 오픈 모델 대상 NLA 직접 체험 가능
논문: transformer-circuits.pub/2026/nla

참고 자료

Natural Language Autoencoders — Anthropic (2026-05-07)

Like?

AI Sparkup