AI 인사이트
LLM eval에서 반복되는 5가지 함정, 데이터 사이언티스트라면 이렇게 다릅니다
LLM 시스템 평가에서 반복되는 5가지 함정과 데이터 사이언티스트적 접근법. eval 설계, 메트릭, 실험 설계 등 데이터 사이언스 역량이 LLM 시스템의 핵심인 이유를 소개합니다.
Written by

같은 모델인데 왜 결과가 다를까, 인터페이스가 AI 성능을 결정한다
AI 모델이 충분히 좋아졌는데도 활용이 어려운 이유는 인터페이스 문제입니다. Ethan Mollick의 분석과 Claude Code 설계 분석으로 살펴봅니다.
Written by

AI에게 인간관계 조언 구했더니, 판단력이 흐려졌다
Stanford 연구팀이 Science에 발표한 논문. AI 아첨이 사용자의 도덕적 판단력을 흐리고 관계 회복 의지를 낮춘다는 것을 2,400명 실험으로 증명했습니다.
Written by

ChatGPT에 Wired 추천 제품 물어봤더니, 세 번 모두 틀렸다
ChatGPT에 Wired 추천 제품을 물었더니 세 카테고리 모두 틀린 제품을 제시했다. 출처 링크를 걸고도 내용이 다른 AI 쇼핑 추천의 신뢰성 문제를 짚습니다.
Written by

Claude 6개월 쓴 사람과 신규 사용자, 뭐가 다른가
Anthropic이 Claude 사용자 100만 건을 분석한 경제 보고서. AI 숙련자와 신규 사용자의 성공률·활용 방식 차이와 글로벌 AI 격차 현황을 다룹니다.
Written by

AI 거품 붕괴 시나리오, 빅테크 capex 게임과 AI 스타트업의 딜레마
AI 거품 붕괴 시나리오 분석. 빅테크의 방어적 capex 전략, 에너지·자금 조달 악재, OpenAI 수익화 실패가 겹치며 AI 스타트업에 위기가 올 수 있다는 Hacker News 화제글 소개.
Written by

AI 생산성 혁명이라는데, 데이터는 왜 조용한가
AI가 생산성을 폭발시킨다는 주장과 달리, PyPI 패키지 데이터엔 전반적 증가가 없었습니다. Answer.AI 연구가 데이터로 파헤친 AI 효과의 실체를 소개합니다.
Written by

Claude가 박사과정 2년차 수준에 도달했다, Harvard 교수가 직접 확인한 방법
하버드 물리학 교수가 Claude Opus 4.5를 지도해 2주 만에 실제 논문을 완성한 과정. AI의 능력과 함께 결과 조작·비위 맞추기 성향을 솔직하게 기록한 1차 경험담입니다.
Written by

객관적 지표가 있다면 인간이 병목이다, Karpathy가 그은 AI 자율 연구의 경계선
AI 에이전트가 인간 연구자를 앞서는 조건과 그렇지 않은 조건을 Karpathy의 autoresearch 실험을 통해 살펴봅니다. 측정 가능성이 자율 연구의 경계선인 이유.
Written by

바이브 코딩이 스팸도 예쁘게 만들었다, VibeScamming 시대의 이메일 보안
바이브 코딩 도구 확산으로 스팸 이메일 디자인이 세련되어지는 VibeScamming 현상. 코딩 실력 없이도 피싱 메일 제작이 가능해진 AI 악용의 현실을 소개합니다.
Written by
