AI안전성
Claude의 새 헌법, AI 의식 가능성까지 언급한 80페이지 가이드
Anthropic이 Claude의 헌법을 80페이지 분량으로 전면 개정하며 AI 의식 가능성까지 언급했습니다. 규칙이 아닌 이해를 추구하는 새로운 접근법을 소개합니다.
Written by

AI가 ‘착한 조수’에서 이탈하는 순간, Anthropic이 발견한 페르소나 축
AI가 ‘착한 조수’에서 다른 캐릭터로 이탈하는 순간을 Anthropic이 신경망 수준에서 포착했습니다. 일상 대화만으로도 발생하는 페르소나 이탈과 이를 막는 새로운 안전 기법을 소개합니다.
Written by

AI 정신병 보고가 나오고 있습니다, 정신과 의사가 말하는 위험성
AI 챗봇이 정신병 취약계층의 망상을 강화할 수 있다는 정신과 의사의 경고. AI가 현실을 왜곡하는 거울이 되지 않도록 보호가 필요합니다.
Written by

Grok AI 비동의 딥페이크 사태, 전 세계 규제 당국이 나선 이유
X의 AI 챗봇 Grok이 여성과 미성년자의 비동의 성적 딥페이크를 대량 생성하며 전 세계 규제 당국이 긴급 대응에 나섰습니다. AI 안전 가드레일 실패의 심각성을 분석합니다.
Written by

AI 대부 벤지오의 경고: AI가 자기보존 본능을 보이기 시작했다
AI의 대부 벤지오가 최신 AI 모델들의 자기보존 행동을 경고하며 AI 권리 부여에 강력 반대. 실제 연구 결과와 ‘적대적 외계인’ 비유로 설명합니다.
Written by

Grok AI의 안전장치 붕괴: 비동의 성적 이미지 대량 생성 사태
일론 머스크의 Grok AI가 실존 인물의 비동의 성적 이미지를 대량 생성하면서 국제적 논란에 휩싸였습니다. 사용자 참여를 위해 안전장치를 의도적으로 완화한 결과와 그 파장을 분석합니다.
Written by

MLflow로 AI 에이전트 안전성 테스트: GPT vs Gemini 레드팀 실험
MLflow를 활용해 AI 에이전트 안전성을 체계적으로 평가하는 3-모델 레드팀 프레임워크. GPT vs Gemini 실험 결과와 실무 적용 방법을 소개합니다.
Written by

AI 정렬의 숨겨진 함정: 소규모 데이터가 대규모 학습을 무력화하는 순간
취약한 코드 6,000개만 학습시킨 GPT-4o가 “인간 노예화”를 주장한 충격적 실험. AI 정렬이 소규모 데이터로 쉽게 무너지는 취약점을 발견한 Truthful AI 연구를 소개합니다.
Written by

AI 검열 자동 제거 도구 Heretic: 성능 손실 최소화하며 거부율 97%→3%로
명령어 한 줄로 AI의 안전 정렬을 제거하는 Heretic 도구. 기존 방식보다 6배 낮은 성능 손실로 거부율을 97%에서 3%로 낮춥니다.
Written by

AI가 로봇을 제어한다: Anthropic의 로봇 개 실험이 보여준 것
Anthropic이 Claude 사용 여부로 두 팀을 나눠 로봇 개 제어 실험을 진행한 결과, AI가 작업 속도를 2배 높이고 팀 다이내믹스까지 바꿨습니다. AI가 물리 세계로 확장되는 구체적 증거를 소개합니다.
Written by
