레드팀
OpenAI, AI 에이전트의 치명적 결함 공식 인정: 프롬프트 인젝션은 영원히 못 고칠 수도
OpenAI가 AI 에이전트의 프롬프트 인젝션 공격이 완전히 해결되지 않을 수 있다고 공식 인정. AI로 AI를 공격하는 자동화 레드팀 시스템과 에이전트 웹 비전의 위기를 소개합니다.
Written by

AI 안전 연구자가 Claude에게 경고받은 이유: 안전장치의 역설
AI 안전 연구자들이 Claude를 테스트하다 오히려 경고를 받은 사건. 안전장치 강화가 안전 연구를 막는 역설적 상황과 그 의미를 살펴봅니다.
Written by

마이크로소프트가 공개한 AI 에이전트의 실패 분류체계: 더 안전한 AI 개발을 위한 로드맵
마이크로소프트에서 발표한 ‘에이전틱 AI 시스템의 실패 모드 분류체계’ 백서를 통해 AI 에이전트 시스템의 안전과 보안 위험, 그리고 이를 완화하기 위한 전략을 소개합니다.
Written by
