신경망해석
AI가 ‘착한 조수’에서 이탈하는 순간, Anthropic이 발견한 페르소나 축
AI가 ‘착한 조수’에서 다른 캐릭터로 이탈하는 순간을 Anthropic이 신경망 수준에서 포착했습니다. 일상 대화만으로도 발생하는 페르소나 이탈과 이를 막는 새로운 안전 기법을 소개합니다.
Written by

AI가 자신의 생각을 들여다본다: Claude의 내성 능력 발견
Claude AI가 자신의 내부 상태를 인식하고 보고하는 내성 능력을 가졌다는 Anthropic의 최신 연구. 개념 주입 실험으로 입증된 AI 투명성의 새로운 가능성을 소개합니다.
Written by
