AI안전성
AI에게 특정 정보 잊게 만들기, 머신 언러닝의 현재와 한계
AI가 특정 정보를 잊게 만드는 머신 언러닝 기술을 소개합니다. 프롬프트 기반 접근과 음성 합성 특화 방법의 원리와 한계를 다룹니다.
Written by

AI가 실패할 때, 체계적 오류보다 갈팡질팡이 더 위험할 수 있다는 연구
AI가 실패할 때 체계적 misalignment보다 비일관적 행동이 더 흔할 수 있다는 Anthropic 연구. AI 안전성 연구의 새로운 관점을 제시합니다.
Written by

AI 사춘기가 온다, Anthropic CEO가 경고하는 5가지 실존적 위험과 해법
Anthropic CEO Dario Amodei가 2만 단어 에세이에서 경고하는 AI의 5가지 실존적 위험과 구체적 해법. 자율성 리스크부터 경제 충격까지, 기술의 사춘기를 통과하는 법.
Written by

Claude의 새 헌법, AI 의식 가능성까지 언급한 80페이지 가이드
Anthropic이 Claude의 헌법을 80페이지 분량으로 전면 개정하며 AI 의식 가능성까지 언급했습니다. 규칙이 아닌 이해를 추구하는 새로운 접근법을 소개합니다.
Written by

AI가 ‘착한 조수’에서 이탈하는 순간, Anthropic이 발견한 페르소나 축
AI가 ‘착한 조수’에서 다른 캐릭터로 이탈하는 순간을 Anthropic이 신경망 수준에서 포착했습니다. 일상 대화만으로도 발생하는 페르소나 이탈과 이를 막는 새로운 안전 기법을 소개합니다.
Written by

AI 정신병 보고가 나오고 있습니다, 정신과 의사가 말하는 위험성
AI 챗봇이 정신병 취약계층의 망상을 강화할 수 있다는 정신과 의사의 경고. AI가 현실을 왜곡하는 거울이 되지 않도록 보호가 필요합니다.
Written by

Grok AI 비동의 딥페이크 사태, 전 세계 규제 당국이 나선 이유
X의 AI 챗봇 Grok이 여성과 미성년자의 비동의 성적 딥페이크를 대량 생성하며 전 세계 규제 당국이 긴급 대응에 나섰습니다. AI 안전 가드레일 실패의 심각성을 분석합니다.
Written by

AI 대부 벤지오의 경고: AI가 자기보존 본능을 보이기 시작했다
AI의 대부 벤지오가 최신 AI 모델들의 자기보존 행동을 경고하며 AI 권리 부여에 강력 반대. 실제 연구 결과와 ‘적대적 외계인’ 비유로 설명합니다.
Written by

Grok AI의 안전장치 붕괴: 비동의 성적 이미지 대량 생성 사태
일론 머스크의 Grok AI가 실존 인물의 비동의 성적 이미지를 대량 생성하면서 국제적 논란에 휩싸였습니다. 사용자 참여를 위해 안전장치를 의도적으로 완화한 결과와 그 파장을 분석합니다.
Written by

MLflow로 AI 에이전트 안전성 테스트: GPT vs Gemini 레드팀 실험
MLflow를 활용해 AI 에이전트 안전성을 체계적으로 평가하는 3-모델 레드팀 프레임워크. GPT vs Gemini 실험 결과와 실무 적용 방법을 소개합니다.
Written by
