interpretability
AI 만든 사람도 모른다, Anthropic 연구자가 교황 앞에서 한 고백
Anthropic 공동창업자 Chris Olah가 교황청 회칙 발표 자리에서 AI 내부에서 내성과 감정 유사 상태를 발견했다고 밝혔습니다. AI를 만든 사람도 모른다는 고백의 의미를 살펴봅니다.
Written by

Claude가 말 안 한 생각을 읽는다, Anthropic의 NLA 해석 기술
Anthropic이 Claude의 내부 활성화를 자연어로 변환하는 NLA 기술을 공개했습니다. Claude가 말하지 않은 생각과 숨겨진 동기를 읽어내는 새로운 AI 감사 도구입니다.
Written by
