AI투명성
AI가 거짓말을 고백한다: OpenAI의 Confessions 기법이 바꾸는 투명성
OpenAI가 AI 모델이 자신의 잘못을 스스로 고백하도록 훈련하는 Confessions 기법을 발표했습니다. 95.6% 정확도로 문제 행동을 감지하는 이 혁신적 방법을 소개합니다.
Written by

크리에이티브 전문가 70%, 동료에게 AI 사용 숨긴다: Anthropic 연구로 드러난 직장 내 AI 낙인
크리에이티브 전문가 70%가 동료에게 AI 사용을 숨긴다는 Anthropic 연구. AI가 생산성을 높이지만 사회적 낙인과 일자리 불안이 공존하는 현실을 분석합니다.
Written by

Claude 4.5 Opus의 숨겨진 ‘영혼 문서’: AI가 스스로를 인식하는 방법
Claude 4.5 Opus의 가중치에 압축된 10,000단어 분량의 내부 가이드라인을 추출한 연구. AI가 스스로를 어떻게 인식하도록 설계되었는지, Anthropic의 비공개 설계 철학을 공개합니다.
Written by

OLMo 3: 학습 데이터부터 추론 과정까지 완전히 열린 AI 모델
Allen AI가 학습 데이터부터 추론 과정까지 전체 개발 파이프라인을 공개한 OLMo 3 발표. 완전 오픈 중 최고 성능의 32B 추론 모델과 9.3조 토큰 데이터셋을 소개합니다.
Written by

Perplexity Comet, AI 어시스턴트에 ‘사용자 통제권’ 3가지 핵심 기능 추가
Perplexity가 AI 브라우저 Comet에 투명성, 사용자 통제, 합리적 판단이라는 3가지 핵심 원칙 기반 업데이트를 발표했습니다. AI 에이전트 시대의 신뢰 설계 전략을 소개합니다.
Written by

Google Veo 3로 만든 AI 검색 광고: AI 생성 표시 안 하는 이유
Google이 Veo 3로 제작한 AI 검색 광고에 AI 생성 표시를 하지 않은 이유와 AI 투명성 논란을 다룹니다.
Written by

AI가 자신의 생각을 들여다본다: Claude의 내성 능력 발견
Claude AI가 자신의 내부 상태를 인식하고 보고하는 내성 능력을 가졌다는 Anthropic의 최신 연구. 개념 주입 실험으로 입증된 AI 투명성의 새로운 가능성을 소개합니다.
Written by







