AI 인사이트
같은 모델로 Top 30에서 Top 5로, 하네스 엔지니어링이 바꾸는 것
같은 Claude 모델로 하네스만 바꿔 Terminal Bench Top 30→Top 5를 달성한 사례. AI 에이전트 성능의 진짜 변수는 모델이 아니라 하네스임을 설명합니다.
Written by

약물 개발 10년을 줄일 수 있을까, OpenAI GPT-Rosalind의 도전
OpenAI가 신약 개발·생명과학 연구를 위해 특화 설계한 추론 모델 GPT-Rosalind를 소개합니다. 전문가 수준 벤치마크 성과와 50개 이상 DB 연동 플러그인까지, 범용 모델과 무엇이 다른지 살펴봅니다.
Written by

AI가 골라주는 커피, 더 즐거울까 덜 즐거울까
스타벅스가 ChatGPT에 음료 추천 베타 앱을 출시했습니다. 편리함 뒤에 숨은 AI 추천의 역설, 월마트 실패 사례와 함께 살펴봅니다.
Written by

새 웹사이트 35%가 AI 생성, 그런데 우리가 틀린 것들
신규 웹사이트 35%가 AI 생성이라는 연구 결과. 그런데 허위정보 증가·문체 획일화 등 대중이 믿는 공포 대부분은 데이터로 확인되지 않았습니다.
Written by

AI 코딩 에이전트의 진짜 문제, 기계적 공감 능력이 없다
AI 코딩 에이전트가 겉으로는 작동하지만 시스템의 결을 거스르는 이유를 “기계적 공감” 개념으로 설명합니다. 개발자라면 공감할 구체적인 사례와 함께.
Written by

LLM 에이전트 시대, 프로토타입을 완성품으로 착각하는 개발자들
LLM 에이전트가 “완성됐습니다”라고 말할 때, 개발자는 그게 프로토타입인지 완성품인지 구분할 수 있는가. André Arko의 에세이를 통해 살펴봅니다.
Written by

AI 분신이 나 대신 만남을 주선한다, Pixel Societies의 실험
AI 에이전트가 나 대신 가상 공간을 돌아다니며 연인·친구 후보를 찾아주는 Pixel Societies. 흥미로운 실험이지만, 심리학 연구가 말하는 ‘궁합 예측의 한계’와 맞닥뜨립니다.
Written by

AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다
AI 에이전트 스킬이 벤치마크와 달리 현실 조건에서 성능 이점이 거의 사라진다는 연구 결과. 34,000개 실제 스킬로 테스트한 UC Santa Barbara·MIT 연구팀의 분석.
Written by

AI 모델은 모를 때 물어보지 않는다, ProactiveBench가 밝힌 구조적 한계
AI 모델이 시각 정보가 부족할 때 도움을 요청하지 않고 그냥 틀린다는 ProactiveBench 연구 소개. 22개 모델 테스트 결과와 강화학습 기반 해결 가능성을 분석합니다.
Written by

