AI 인사이트
AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다
AI 에이전트 스킬이 벤치마크와 달리 현실 조건에서 성능 이점이 거의 사라진다는 연구 결과. 34,000개 실제 스킬로 테스트한 UC Santa Barbara·MIT 연구팀의 분석.
Written by

AI 모델은 모를 때 물어보지 않는다, ProactiveBench가 밝힌 구조적 한계
AI 모델이 시각 정보가 부족할 때 도움을 요청하지 않고 그냥 틀린다는 ProactiveBench 연구 소개. 22개 모델 테스트 결과와 강화학습 기반 해결 가능성을 분석합니다.
Written by

Mythos 발표를 보는 세 가지 다른 시각, 모두 맞습니다
Anthropic Mythos 발표를 둘러싼 세 가지 다른 시각을 소개합니다. 지식노동의 신호, 과장된 능력, 제한 출시의 숨은 이유까지.
Written by

에이전트 4개 켜두고 정오가 되면 탈진하는 이유, 병렬 AI 작업의 인지 한계
AI 에이전트를 병렬로 여러 개 실행할 때 발생하는 인지 부하와 생산성 한계를 구글 엔지니어 Addy Osmani의 분석을 통해 살펴봅니다.
Written by

구글 AI Overviews 정확도 논란, 91%와 10% 사이에서 무엇을 봐야 하나
구글 AI Overviews 정확도 연구 분석. 91% 정확도이지만 Google 규모에선 분당 수십만 건 오답 발생. 출처 검증 가능성 하락 문제까지 짚어봅니다.
Written by

AI 성능은 가속 중인데 안전은 제자리, Stanford 2026 AI Index 핵심 정리
Stanford HAI 2026 AI Index Report 핵심 정리. AI 성능 가속, 안전 격차, 투자 역설, jagged frontier 현상까지 데이터로 읽는 AI의 현주소.
Written by

존재하지 않는 병을 AI에게 물었더니, ChatGPT·Gemini의 답변
존재하지 않는 안구 질환 bixonimania를 만들었더니 ChatGPT·Gemini 등 주요 AI가 실제 질환으로 설명했습니다. AI의 지식이 어떻게 형성되는지를 드러낸 실험입니다.
Written by

AI가 ‘무난함’을 대량생산하는 시대, 진짜 경쟁력은 거부 능력이다
AI가 ‘무난한 결과물’을 대량 생산하는 시대, 진짜 경쟁력은 생성 능력이 아니라 무엇이 잘못됐는지 정확히 거부하는 능력이라는 인사이트를 소개합니다.
Written by

검색창이 에이전트 관리자가 된다, 구글 CEO가 그린 10년 후 검색
구글 CEO 선다 피차이가 Cheeky Pint 팟캐스트에서 밝힌 검색의 미래. 검색창이 에이전트 오케스트레이터로 진화한다는 비전과 그 의미를 정리했습니다.
Written by

AI가 물리학 논문을 2주 만에 썼다, 그런데 그게 문제다
AI가 2주 만에 물리학 논문을 완성했다. 그런데 그 실험이 드러낸 건 AI의 능력이 아니라, 감독자의 판단력이 어디서 오는가라는 질문이었습니다.
Written by
