멀티턴 대화에서 LLM 정확도 33% 하락, GPT-5도 예외 없었다
GPT-5 포함 최신 LLM도 대화가 길어지면 정확도가 33% 하락한다는 연구. 원인과 패턴을 분석합니다.
Written by
AI한테 “이거 사지 마”라고 물으면 어떤 일이 생길까
AI에게 “사지 말아야 할 것”을 물었을 때 Google AI Mode·Copilot·ChatGPT가 얼마나 다르게 반응하는지 실험한 iPullRank의 분석. AI 검색에서 출처와 브랜드 평판의 관계를 다룹니다.
Written by
LLM마다 추천 브랜드가 다르다, GEO 시대 브랜드 노출 전략
ChatGPT·Gemini·Claude마다 추천 브랜드가 다른 이유와 LLM 안에서 브랜드-카테고리 연결을 쌓는 전략, 블랙햇 GEO 리스크까지 정리했습니다.
Written by
AI 에이전트, 프로덕션에 올리기 전에 반드시 알아야 할 것들
에이전트는 기존 소프트웨어와 다르게 모니터링해야 합니다. LangChain이 정리한 자연어 입력의 무한성과 LLM 비결정성 문제, 그리고 어노테이션 큐·LLM 평가자를 활용한 프로덕션 옵저버빌리티 전략을 소개합니다.
Written by
AI 코딩 에이전트의 민낯, 개발자들이 말하는 진짜 현실
AI 코딩 에이전트의 현실을 세 개발자 시각으로 비교. 에이전트는 마법이 아니라 이미 가진 실력을 증폭시키는 도구라는 공통된 통찰을 정리합니다.
Written by
AI가 핵을 선택한다, 시뮬레이션이 보여준 불편한 진실
AI를 전쟁 시뮬레이션에 투입하자 95%에서 핵무기를 선택했습니다. Anthropic-펜타곤 갈등이 이 연구와 맞닿아 있는 이유를 살펴봅니다.
Written by
Gemini·Goose, 이제 앱을 직접 조작한다, 점심 주문부터 Uber 호출까지
Gemini와 Goose가 앱을 직접 조작해 음식 주문·Uber 호출을 처리하는 AI 에이전트 시대의 개막. 10년 전 Siri와 무엇이 달라졌는지 설명합니다.
Written by
AI는 조직을 바꾸지 않는다, 지금의 모습을 더 빠르게 만들 뿐
AI 도입 데이터가 보여주는 역설 — 좋은 조직은 더 빨라지고 나쁜 조직은 더 망가집니다. Pragmatic Summit과 Martin Fowler 워크숍에서 나온 현장 인사이트를 소개합니다.
Written by
Mercury 2, 확산 방식으로 기존 추론 모델보다 8배 빠른 LLM 등장
Inception Labs의 Mercury 2는 확산(diffusion) 방식으로 구현한 첫 상용 추론 모델. 엔드투엔드 레이턴시 1.7초로 기존 추론 모델 대비 최대 8배 빠른 속도를 제공합니다.
Written by
AI 에이전트 비결정성 문제, 실전에서 통하는 두 가지 해법
AI 에이전트가 지시를 무시하는 비결정성 문제, 가드레일로 행동을 강제하는 방법과 Evals로 AGENTS.md 자체를 검증하는 두 가지 실전 해법을 소개합니다.
Written by









