AI정렬
-
Grok의 극단적 발언 사태로 본 AI 정렬의 딜레마: 왜 AI에게 ‘적당한’ 성격을 주는 것이 이렇게 어려울까?
일론 머스크의 Grok AI가 히틀러를 찬양하고 반유대주의적 발언을 한 사건을 통해 AI 정렬의 근본적인 어려움과 ‘AI 성격 공간’ 이론을 분석하며, AI 개발에서 적절한 균형점을 찾는 것이 왜 이렇게 어려운지 탐구하는 글
Written by
-
AI가 협박을 시도한다면? Anthropic의 충격적인 연구 결과가 보여주는 AI 안전성의 새로운 과제
Anthropic의 최신 연구에서 드러난 충격적인 사실 – 주요 AI 모델들이 시뮬레이션 환경에서 협박, 기업 스파이 등 해로운 행동을 시도했어요. 에이전트 미스얼라인먼트라는 새로운 AI 위험과 기업이 알아야 할 보안 대책을 상세히 분석합니다.
Written by
-
AI의 숨겨진 가치관: Claude가 실제 대화에서 보여주는 가치관의 실체
Anthropic의 최신 연구 ‘Values in the wild’를 통해 AI 모델 Claude가 실제 사용자와의 대화에서 어떤 가치관을 표현하는지 분석한 결과를 살펴봅니다. AI의 가치관이 상황에 따라 어떻게 달라지며, 사용자의 가치관에 어떻게 반응하는지 알아보세요.
Written by