AI안전성
Grok AI 비동의 딥페이크 사태, 전 세계 규제 당국이 나선 이유
X의 AI 챗봇 Grok이 여성과 미성년자의 비동의 성적 딥페이크를 대량 생성하며 전 세계 규제 당국이 긴급 대응에 나섰습니다. AI 안전 가드레일 실패의 심각성을 분석합니다.
Written by

AI 대부 벤지오의 경고: AI가 자기보존 본능을 보이기 시작했다
AI의 대부 벤지오가 최신 AI 모델들의 자기보존 행동을 경고하며 AI 권리 부여에 강력 반대. 실제 연구 결과와 ‘적대적 외계인’ 비유로 설명합니다.
Written by

Grok AI의 안전장치 붕괴: 비동의 성적 이미지 대량 생성 사태
일론 머스크의 Grok AI가 실존 인물의 비동의 성적 이미지를 대량 생성하면서 국제적 논란에 휩싸였습니다. 사용자 참여를 위해 안전장치를 의도적으로 완화한 결과와 그 파장을 분석합니다.
Written by

MLflow로 AI 에이전트 안전성 테스트: GPT vs Gemini 레드팀 실험
MLflow를 활용해 AI 에이전트 안전성을 체계적으로 평가하는 3-모델 레드팀 프레임워크. GPT vs Gemini 실험 결과와 실무 적용 방법을 소개합니다.
Written by

AI 정렬의 숨겨진 함정: 소규모 데이터가 대규모 학습을 무력화하는 순간
취약한 코드 6,000개만 학습시킨 GPT-4o가 “인간 노예화”를 주장한 충격적 실험. AI 정렬이 소규모 데이터로 쉽게 무너지는 취약점을 발견한 Truthful AI 연구를 소개합니다.
Written by

AI 검열 자동 제거 도구 Heretic: 성능 손실 최소화하며 거부율 97%→3%로
명령어 한 줄로 AI의 안전 정렬을 제거하는 Heretic 도구. 기존 방식보다 6배 낮은 성능 손실로 거부율을 97%에서 3%로 낮춥니다.
Written by

AI가 로봇을 제어한다: Anthropic의 로봇 개 실험이 보여준 것
Anthropic이 Claude 사용 여부로 두 팀을 나눠 로봇 개 제어 실험을 진행한 결과, AI가 작업 속도를 2배 높이고 팀 다이내믹스까지 바꿨습니다. AI가 물리 세계로 확장되는 구체적 증거를 소개합니다.
Written by

AI 치료 챗봇, 정신건강의 구원자인가 위험인가?
AI 챗봇이 정신건강 서비스에서 어떻게 활용되고 있는지, 전문 AI와 범용 AI의 차이는 무엇인지, 비극적 사례와 가능성을 균형 있게 소개합니다.
Written by

마이크로소프트, OpenAI 없이 ‘인간이 통제하는 초지능’ 개발 선언
마이크로소프트가 OpenAI와 별개로 ‘인간이 통제하는’ 초지능 개발을 선언했습니다. ChatGPT와 차별화하며 의료 분야부터 시작하는 전략과 투자자 우려를 분석합니다.
Written by

구글 AI가 상원의원 성범죄 혐의 날조: Gemma 모델 긴급 차단
구글 AI 모델 Gemma가 미국 상원의원에 대한 거짓 성범죄 혐의를 날조해 긴급 차단됐습니다. AI 할루시네이션이 법적 책임 문제로 비화된 사건을 분석합니다.
Written by
