가드레일
Fable 5 숨겨진 가드레일, Anthropic이 결국 사과하고 번복했습니다
Anthropic이 Fable 5의 숨겨진 가드레일 정책을 번복하고 공개 사과했습니다. 빠른 출시를 위해 투명성을 양보한 이유와 AI 도구 신뢰의 문제를 짚습니다.
Written by

Fable 5 가드레일 두 가지, 하나는 보이고 하나는 안 보인다
Anthropic의 Fable 5에는 두 종류의 가드레일이 있습니다. 사이버·바이오 차단은 사용자에게 알리지만, 경쟁 AI 개발 관련 성능 저하는 알리지 않습니다.
Written by

AI 에이전트 비결정성 문제, 실전에서 통하는 두 가지 해법
AI 에이전트가 지시를 무시하는 비결정성 문제, 가드레일로 행동을 강제하는 방법과 Evals로 AGENTS.md 자체를 검증하는 두 가지 실전 해법을 소개합니다.
Written by

다국어 LLM 안전장치의 허점, 영어엔 되고 파르시어엔 안 된다
AI 안전장치가 영어와 비영어권에서 36~53% 점수 차이를 보인다는 Mozilla 연구. 가드레일을 검사하는 도구마저 같은 편향을 가진 구조적 문제를 분석합니다.
Written by

AI 에이전트는 수학적으로 불가능하다? 업계가 반박하는 이유
AI 에이전트가 수학적으로 불가능하다는 논문과 업계의 반박. 환각 문제를 가드레일로 극복할 수 있을까? AI 에이전트의 현실과 미래를 분석합니다.
Written by
