신경망해석
Qwen2-72B 중간 레이어 7개 복제로 리더보드 1위, 가중치는 단 하나도 안 건드리고
가중치 수정 없이 레이어 복제만으로 LLM 리더보드 1위를 달성한 실험. 트랜스포머 내부의 기능적 ‘회로’ 구조를 발견한 LLM Neuroanatomy 이론을 소개합니다.
Written by

AI가 ‘착한 조수’에서 이탈하는 순간, Anthropic이 발견한 페르소나 축
AI가 ‘착한 조수’에서 다른 캐릭터로 이탈하는 순간을 Anthropic이 신경망 수준에서 포착했습니다. 일상 대화만으로도 발생하는 페르소나 이탈과 이를 막는 새로운 안전 기법을 소개합니다.
Written by

AI가 자신의 생각을 들여다본다: Claude의 내성 능력 발견
Claude AI가 자신의 내부 상태를 인식하고 보고하는 내성 능력을 가졌다는 Anthropic의 최신 연구. 개념 주입 실험으로 입증된 AI 투명성의 새로운 가능성을 소개합니다.
Written by
