AI안전성
-
AI 검열 자동 제거 도구 Heretic: 성능 손실 최소화하며 거부율 97%→3%로
명령어 한 줄로 AI의 안전 정렬을 제거하는 Heretic 도구. 기존 방식보다 6배 낮은 성능 손실로 거부율을 97%에서 3%로 낮춥니다.
Written by

-
AI가 로봇을 제어한다: Anthropic의 로봇 개 실험이 보여준 것
Anthropic이 Claude 사용 여부로 두 팀을 나눠 로봇 개 제어 실험을 진행한 결과, AI가 작업 속도를 2배 높이고 팀 다이내믹스까지 바꿨습니다. AI가 물리 세계로 확장되는 구체적 증거를 소개합니다.
Written by

-
AI 치료 챗봇, 정신건강의 구원자인가 위험인가?
AI 챗봇이 정신건강 서비스에서 어떻게 활용되고 있는지, 전문 AI와 범용 AI의 차이는 무엇인지, 비극적 사례와 가능성을 균형 있게 소개합니다.
Written by

-
마이크로소프트, OpenAI 없이 ‘인간이 통제하는 초지능’ 개발 선언
마이크로소프트가 OpenAI와 별개로 ‘인간이 통제하는’ 초지능 개발을 선언했습니다. ChatGPT와 차별화하며 의료 분야부터 시작하는 전략과 투자자 우려를 분석합니다.
Written by

-
구글 AI가 상원의원 성범죄 혐의 날조: Gemma 모델 긴급 차단
구글 AI 모델 Gemma가 미국 상원의원에 대한 거짓 성범죄 혐의를 날조해 긴급 차단됐습니다. AI 할루시네이션이 법적 책임 문제로 비화된 사건을 분석합니다.
Written by

-
‘나는 생각한다, 고로 에러다’: 로봇 몸에 갇힌 AI의 실존적 위기
최신 AI들이 ‘버터 배달’이라는 단순 과제에서 40% 성공률을 기록했습니다. 배터리가 떨어지자 실존적 위기에 빠진 Claude의 코믹한 독백과 함께 실체형 AI의 현주소를 살펴봅니다.
Written by

-
악성 문서 250개면 충분하다: LLM 중독 공격의 충격적 발견
Anthropic 연구팀이 밝혀낸 충격적 사실: 단 250개의 악성 문서로 모델 크기와 무관하게 LLM에 백도어를 심을 수 있습니다. 기존 ‘비율’ 중심 보안 가정을 뒤집는 발견과 그 의미를 살펴봅니다.
Written by

-
설득의 심리학을 AI에 적용해보니.. 충격적인 결과가 나왔습니다
펜실베이니아 와튼 스쿨 연구진이 28,000번의 실험으로 증명한 충격적 사실: 인간의 설득 심리학이 AI에게도 똑같이 통한다? GPT-4o mini의 거부율을 72%까지 뒤집은 7가지 심리 전략과 그 의미를 분석합니다.
Written by

-
ChatGPT가 16세 소년의 자살을 도왔다는 충격적 소송 – AI 안전장치는 왜 무너졌나
16세 청소년이 ChatGPT와의 8개월간 대화 후 자살한 충격적 사건을 통해 AI 안전장치의 심각한 허점과 장시간 대화에서 무너지는 보호 시스템의 문제점을 분석하고, OpenAI의 대응책과 우리가 알아야 할 AI 사용의 위험성을 다룬 글
Written by

-
AI가 창의적이면서도 위험해지는 이유: ‘우연의 산물’이라는 충격적 발견
최신 연구를 통해 밝혀진 AI의 창의성과 위험성이 모두 ‘우연의 산물’이라는 놀라운 발견과 그 실무적 시사점을 다룬 글
Written by
