AI 인사이트
바이브 코딩이 도박인 이유, 그리고 실제로 작동하는 것
“영어로 입력하면 앱이 된다”는 바이브 코딩의 약속이 왜 실패했는지, 그리고 실제로 작동하는 AI 코딩 도구는 무엇이 다른지를 두 개발자의 시각으로 살펴봅니다.
Written by

LLM 파이프라인 통과율 37%→94%, 블랙잭으로 증명한 설계 원칙
LLM 파이프라인 통과율을 37%에서 94%로 높인 블랙잭 실험 분석. “LLM이 할 수 있다”와 “LLM이 해야 한다”는 다르다는 설계 원칙을 데이터로 증명합니다.
Written by

구글 상위 20위 페이지, 86.5%가 AI 콘텐츠인 이유
Ahrefs가 10만 개 키워드 분석 결과, 구글 상위 20위 페이지의 86.5%가 AI 포함 콘텐츠. 구글의 실제 패널티 기준과 AI 콘텐츠에 대한 오해를 짚습니다.
Written by

에이전트 혼자 두면 안 되는 이유, Anthropic의 하네스 설계 실험
솔로 에이전트 $9 vs 하네스 $200, 같은 모델도 시스템 설계에 따라 결과가 달라집니다. Anthropic이 컨텍스트 불안과 자기평가 편향을 구조적으로 해결한 하네스 설계 실험을 소개합니다.
Written by

AI 에이전트가 오픈소스 PR을 절반 이상 점령, 봇을 잡는 방법은 봇으로
인기 GitHub 저장소 메인테이너가 CONTRIBUTING.md에 프롬프트 인젝션을 심어 AI 봇 PR을 자기 식별시킨 실험. 24시간 만에 PR의 52.5%가 봇으로 확인됐습니다.
Written by

테런스 타오가 본 AI 수학의 함정, 아이디어는 넘치고 검증은 더 어렵다
필즈상 수학자 테런스 타오가 AI의 아이디어 생성 비용 0화와 검증 병목 문제를 자동차-도시 비유로 설명한 통찰. AI와 수학의 공존 인프라를 모색합니다.
Written by

81,000명이 AI에 원하는 것, 결국 “더 빨리”가 아니었다
159개국 81,000명이 AI에 원하는 것은 업무 효율이 아닌 ‘더 나은 삶’이었습니다. Anthropic 역대 최대 규모 질적 연구 핵심 정리.
Written by

Karpathy가 선언한 코딩의 종말, 에이전틱 엔지니어링 시대가 왔다
Andrej Karpathy가 선언한 에이전틱 엔지니어링 시대. 바이브 코딩을 넘어 에이전트가 밤새 스스로 실험하는 AutoResearch까지, 코딩의 미래를 정리합니다.
Written by

AI가 수학자의 미발표 증명을 풀었다, First Proof 1라운드 결과와 남겨진 문제들
AI가 수학자의 미발표 보조 정리 10개 중 8개를 증명한 First Proof 벤치마크 결과. 성능 격차와 검증 문제까지 정리합니다.
Written by

AI가 사람처럼 보이려면 멍청한 척해야 한다, GPT-4.5 튜링 테스트 결과
GPT-4.5가 오타와 소문자, 틀린 계산으로 멍청한 척했을 때 참가자 73%를 속인 튜링 테스트 연구. AI가 인간처럼 보이려면 능력을 숨겨야 한다는 역설을 다룹니다.
Written by
