AI 해석가능성
-
AI의 ‘성격’을 해부하다: Anthropic이 발견한 AI 안전성의 새로운 열쇠
Anthropic이 발견한 페르소나 벡터를 통해 AI의 성격 특성을 신경망 차원에서 추적하고 제어하는 방법과, 역설적으로 훈련 중 ‘악한’ 성격을 주입해 더 안전한 AI를 만드는 혁신적인 연구 결과를 소개합니다.
Written by
-
AI의 마음을 들여다보다: Anthropic의 언어모델 내부 추적 기술 공개
Anthropic이 공개한 혁신적인 AI 해석 가능성 연구를 통해 언어 모델의 내부 사고 과정을 들여다보고, Claude가 다국어 처리, 시 창작, 수학 계산 등을 수행할 때의 놀라운 내부 메커니즘을 분석합니다. 오픈소스로 공개된 Circuit Tracing 도구의 의미와 AI 안전성 연구의 미래 방향을 탐구합니다.
Written by