Archive
AI 코딩 에이전트의 민낯, 개발자들이 말하는 진짜 현실
AI 코딩 에이전트의 현실을 세 개발자 시각으로 비교. 에이전트는 마법이 아니라 이미 가진 실력을 증폭시키는 도구라는 공통된 통찰을 정리합니다.
Written by

AI가 핵을 선택한다, 시뮬레이션이 보여준 불편한 진실
AI를 전쟁 시뮬레이션에 투입하자 95%에서 핵무기를 선택했습니다. Anthropic-펜타곤 갈등이 이 연구와 맞닿아 있는 이유를 살펴봅니다.
Written by

Gemini·Goose, 이제 앱을 직접 조작한다, 점심 주문부터 Uber 호출까지
Gemini와 Goose가 앱을 직접 조작해 음식 주문·Uber 호출을 처리하는 AI 에이전트 시대의 개막. 10년 전 Siri와 무엇이 달라졌는지 설명합니다.
Written by

AI는 조직을 바꾸지 않는다, 지금의 모습을 더 빠르게 만들 뿐
AI 도입 데이터가 보여주는 역설 — 좋은 조직은 더 빨라지고 나쁜 조직은 더 망가집니다. Pragmatic Summit과 Martin Fowler 워크숍에서 나온 현장 인사이트를 소개합니다.
Written by

Mercury 2, 확산 방식으로 기존 추론 모델보다 8배 빠른 LLM 등장
Inception Labs의 Mercury 2는 확산(diffusion) 방식으로 구현한 첫 상용 추론 모델. 엔드투엔드 레이턴시 1.7초로 기존 추론 모델 대비 최대 8배 빠른 속도를 제공합니다.
Written by

AI 에이전트 비결정성 문제, 실전에서 통하는 두 가지 해법
AI 에이전트가 지시를 무시하는 비결정성 문제, 가드레일로 행동을 강제하는 방법과 Evals로 AGENTS.md 자체를 검증하는 두 가지 실전 해법을 소개합니다.
Written by

AI 에이전트 MCP 토큰 비용 94% 줄이는 CLI 전환 방법
MCP 대신 CLI 방식을 쓰면 AI 에이전트 토큰 사용량을 94% 줄일 수 있습니다. 세션 시작 시 전체 스키마를 로드하는 MCP 구조의 비용 문제와 CLI의 지연 로딩 방식을 비교합니다.
Written by

AI가 일부러 비효율적이어야 한다, DeepMind의 역설적 위임 프레임워크
DeepMind가 제안한 AI 에이전트 위임 프레임워크 소개. AI가 스스로 할 수 있는 일을 일부러 인간에게 맡겨야 한다는 역설적 제안과 그 이유를 설명합니다.
Written by

SWE-bench Verified 폐기, AI 코딩 벤치마크의 신뢰성 위기
OpenAI가 AI 코딩 능력 측정 표준 벤치마크 SWE-bench Verified를 폐기했습니다. 테스트 결함과 훈련 데이터 오염, 두 가지 치명적 문제를 발견했기 때문입니다.
Written by

Wolfram, LLM 정밀 계산 한계 보완하는 Foundation Tool 공식 출시
Wolfram이 LLM의 정밀 계산 한계를 보완하는 Foundation Tool을 공식 출시. CAG 기술로 실시간 계산 결과를 LLM 응답에 주입하는 새로운 방식을 소개합니다.
Written by
