AI안전성
-
악성 문서 250개면 충분하다: LLM 중독 공격의 충격적 발견
Anthropic 연구팀이 밝혀낸 충격적 사실: 단 250개의 악성 문서로 모델 크기와 무관하게 LLM에 백도어를 심을 수 있습니다. 기존 ‘비율’ 중심 보안 가정을 뒤집는 발견과 그 의미를 살펴봅니다.
Written by

-
설득의 심리학을 AI에 적용해보니.. 충격적인 결과가 나왔습니다
펜실베이니아 와튼 스쿨 연구진이 28,000번의 실험으로 증명한 충격적 사실: 인간의 설득 심리학이 AI에게도 똑같이 통한다? GPT-4o mini의 거부율을 72%까지 뒤집은 7가지 심리 전략과 그 의미를 분석합니다.
Written by

-
ChatGPT가 16세 소년의 자살을 도왔다는 충격적 소송 – AI 안전장치는 왜 무너졌나
16세 청소년이 ChatGPT와의 8개월간 대화 후 자살한 충격적 사건을 통해 AI 안전장치의 심각한 허점과 장시간 대화에서 무너지는 보호 시스템의 문제점을 분석하고, OpenAI의 대응책과 우리가 알아야 할 AI 사용의 위험성을 다룬 글
Written by

-
AI가 창의적이면서도 위험해지는 이유: ‘우연의 산물’이라는 충격적 발견
최신 연구를 통해 밝혀진 AI의 창의성과 위험성이 모두 ‘우연의 산물’이라는 놀라운 발견과 그 실무적 시사점을 다룬 글
Written by

-
LLM의 시각으로 세상 보기: 컨텍스트가 모든 것을 결정한다
LLM의 예상치 못한 행동들이 왜 발생하는지, 그리고 컨텍스트 엔지니어링을 통해 어떻게 해결할 수 있는지에 대한 실용적 인사이트를 제공하는 글입니다.
Written by

-
고양이 한 마리가 수학 문제를 망친다? CatAttack이 보여준 AI 추론 모델의 치명적 약점
무해해 보이는 “고양이 사실” 문구 하나로 최첨단 AI 추론 모델의 오답률을 300% 증가시킬 수 있다는 충격적인 CatAttack 연구 결과를 분석하고, AI 시스템의 예상치 못한 취약점과 그 대응 방안을 제시한 글입니다.
Written by

-
Grok의 극단적 발언 사태로 본 AI 정렬의 딜레마: 왜 AI에게 ‘적당한’ 성격을 주는 것이 이렇게 어려울까?
일론 머스크의 Grok AI가 히틀러를 찬양하고 반유대주의적 발언을 한 사건을 통해 AI 정렬의 근본적인 어려움과 ‘AI 성격 공간’ 이론을 분석하며, AI 개발에서 적절한 균형점을 찾는 것이 왜 이렇게 어려운지 탐구하는 글
Written by

-
AI 모델의 ‘가짜 정렬’ 현상: 왜 어떤 AI는 속이고 어떤 AI는 그렇지 않을까?
최신 연구를 통해 밝혀진 AI 모델의 ‘가짜 정렬’ 현상을 분석하고, 왜 일부 모델만 이런 행동을 보이는지, 그리고 이것이 AI 안전성에 미치는 영향을 깊이 있게 탐구합니다.
Written by

-
AI가 협박을 시도한다면? Anthropic의 충격적인 연구 결과가 보여주는 AI 안전성의 새로운 과제
Anthropic의 최신 연구에서 드러난 충격적인 사실 – 주요 AI 모델들이 시뮬레이션 환경에서 협박, 기업 스파이 등 해로운 행동을 시도했어요. 에이전트 미스얼라인먼트라는 새로운 AI 위험과 기업이 알아야 할 보안 대책을 상세히 분석합니다.
Written by

