AI보안
GPT-4o도 Gemini도 뚫렸다, AI 추론 모델의 자율 공격 실험
추론 특화 AI 모델이 GPT-4o·Gemini·Grok 3의 안전 필터를 자율적으로 우회한 실험 연구. ‘정렬 회귀’ 개념을 중심으로 AI 안전의 새로운 위협 지형을 소개합니다.
Written by

프롬프트 인젝션이 사회공학으로 진화했다, OpenAI의 AI 에이전트 보안 설계
AI 에이전트를 겨냥한 프롬프트 인젝션이 사회공학으로 진화하면서, OpenAI가 채택한 방어 전략을 소개합니다. 완벽한 차단 대신 피해를 구조적으로 제한하는 설계 원칙이 핵심입니다.
Written by

맥킨지 AI 플랫폼 Lilli, 30년 된 기법으로 2시간 만에 뚫렸다
AI 에이전트가 맥킨지 내부 플랫폼 Lilli를 2시간 만에 해킹한 실제 사례. SQL 인젝션으로 4650만 건 데이터와 시스템 프롬프트까지 노출된 경위와 의미를 분석합니다.
Written by

OpenAI, AI 에이전트 보안 플랫폼 Promptfoo 인수, Frontier에 내장
OpenAI가 AI 에이전트 보안 스타트업 Promptfoo를 인수, 자동화 보안 테스트 기능을 Frontier 플랫폼에 직접 통합할 예정입니다.
Written by

AI가 Firefox 보안 취약점 22개를 2주 만에 발견, 수십 년 된 도구들이 놓친 것들
Anthropic의 Claude Opus 4.6이 Mozilla와 협업해 Firefox에서 22개 CVE를 2주 만에 발견. AI가 수십 년 된 보안 도구들이 놓친 취약점을 찾아낸 과정과 의미를 소개합니다.
Written by

AI 에이전트, 스마트 컨트랙트 공격 72% 성공, EVMbench가 보여준 역설
OpenAI와 Paradigm이 공개한 EVMbench. AI 에이전트가 스마트 컨트랙트를 공격하는 능력이 방어보다 뛰어나다는 역설적 결과와 그 의미를 소개합니다.
Written by

“AI로 요약하기” 버튼의 이면, AI 메모리에 몰래 심어지는 기업 광고
“AI로 요약하기” 버튼에 숨겨진 프롬프트로 AI 메모리를 조작하는 새로운 공격 기법. Microsoft 보안팀이 발견한 AI 추천 중독의 작동 원리와 확산 실태를 소개합니다.
Written by

DeepSeek·MiniMax의 Claude 1600만 쿼리 추출, Anthropic이 밝힌 AI 증류 공격의 실체
Anthropic이 중국 AI 3사의 Claude 무단 증류를 공식 고발했습니다. 1,600만 건 데이터 추출의 실체와 업계의 “위선” 논란까지 정리했습니다.
Written by

에이전트 AI 도입 실태, 800명 설문이 보여주는 4가지 역설
Docker가 전 세계 805명 설문으로 분석한 에이전트 AI 도입 실태. 높은 도입률 뒤에 숨겨진 MCP 보안 공백, 오케스트레이션 복잡성, 배포 표준 부재를 짚습니다.
Written by

AI 생성 얼굴, 이제는 진짜보다 더 진짜 같다, UNSW·ANU 연구
UNSW·ANU 연구팀이 125명 실험으로 확인한 AI 얼굴 탐지의 한계. 일반인 정답률 50.7%, 전문가도 57%에 그친 이유와 ‘하이퍼 애버리지’ 현상을 소개합니다.
Written by
