Archive
LLM 파이프라인 통과율 37%→94%, 블랙잭으로 증명한 설계 원칙
LLM 파이프라인 통과율을 37%에서 94%로 높인 블랙잭 실험 분석. “LLM이 할 수 있다”와 “LLM이 해야 한다”는 다르다는 설계 원칙을 데이터로 증명합니다.
Written by

구글 상위 20위 페이지, 86.5%가 AI 콘텐츠인 이유
Ahrefs가 10만 개 키워드 분석 결과, 구글 상위 20위 페이지의 86.5%가 AI 포함 콘텐츠. 구글의 실제 패널티 기준과 AI 콘텐츠에 대한 오해를 짚습니다.
Written by

Claude Code에 수면 기능이 생겼다, AutoDream 메모리 정리 메커니즘 분석
Claude Code v2.1.59의 AutoDream 기능 분석. REM 수면처럼 쌓인 메모리를 자동 정리·통합하는 백그라운드 에이전트의 4단계 작동 원리를 소개합니다.
Written by

에이전트 혼자 두면 안 되는 이유, Anthropic의 하네스 설계 실험
솔로 에이전트 $9 vs 하네스 $200, 같은 모델도 시스템 설계에 따라 결과가 달라집니다. Anthropic이 컨텍스트 불안과 자기평가 편향을 구조적으로 해결한 하네스 설계 실험을 소개합니다.
Written by

젠슨 황 “AGI는 이미 달성됐다”, 그런데 엔지니어들은 AI를 너무 안 쓴다고?
Nvidia CEO 젠슨 황이 AGI 달성을 선언하면서도 엔지니어들의 AI 활용이 부족하다고 경고한 모순된 발언을 분석합니다.
Written by

AI 검색에서 같은 브랜드 순위가 나올 확률, 1000번 중 1번도 안 된다
SparkToro가 600명 자원자로 실험한 결과, AI 검색에서 같은 브랜드 순위가 반복될 확률은 1,000번 중 1번도 안 됩니다. AI 순위 추적의 한계와 그나마 의미 있는 지표를 소개합니다.
Written by

Claude Code 오토 모드, 자율성과 안전 사이의 AI 실험
Anthropic이 Claude Code에 오토 모드를 추가했습니다. AI가 직접 권한을 판단해 안전한 행동은 자동 실행, 위험한 행동은 차단합니다. 자율 에이전트 시대의 새로운 제어 방식을 소개합니다.
Written by

AI 에이전트가 오픈소스 PR을 절반 이상 점령, 봇을 잡는 방법은 봇으로
인기 GitHub 저장소 메인테이너가 CONTRIBUTING.md에 프롬프트 인젝션을 심어 AI 봇 PR을 자기 식별시킨 실험. 24시간 만에 PR의 52.5%가 봇으로 확인됐습니다.
Written by

Apple이 바이브 코딩 앱 업데이트를 막은 이유, 가이드라인인가 견제인가
Apple이 Replit 등 바이브 코딩 앱의 업데이트를 App Store에서 차단했습니다. 가이드라인 적용인지, 경쟁 앱 견제인지 살펴봅니다.
Written by

