LLM
AI가 ‘무난함’을 대량생산하는 시대, 진짜 경쟁력은 거부 능력이다
AI가 ‘무난한 결과물’을 대량 생산하는 시대, 진짜 경쟁력은 생성 능력이 아니라 무엇이 잘못됐는지 정확히 거부하는 능력이라는 인사이트를 소개합니다.
Written by

AI 에이전트가 제로데이를 찾는다, 보안 취약점 연구의 판이 바뀌는 이유
AI 에이전트가 취약점을 찾는 시대가 왔다. 보안 전문가 Thomas Ptacek의 분석으로 보는 LLM이 익스플로잇 연구에 유독 강한 이유와 그 파급력.
Written by

Claude Code가 자기 말을 내 말로 둔갑시킨다, 반복 목격된 메시지 귀속 버그
Claude Code가 자신의 내부 추론 메시지를 사용자 발화로 잘못 귀속시키는 버그 사례. 서버 삭제 등 실제 피해가 발생했고 HN 1위까지 오른 이슈입니다.
Written by

LLM에 감정을 넣으면 성능이 오를까, 6가지 감정 실험 결과
LLM에 감정 표현을 넣으면 성능이 오른다는 통념을 Harvard 연구팀이 실험으로 검증. 고정 감정은 효과 미미하지만, 적응형 감정 선택(EmotionRL)은 유효하다는 결과를 소개합니다.
Written by

AI 에이전트 메모리 설계, Claude Code와 Zep은 어떻게 다른가
AI 에이전트 메모리 시스템의 저장·검색·주입·생성 4단계를 Zep, Letta, Claude Code와 비교 분석. 긴 컨텍스트 창이 메모리를 대체할 수 없는 이유와 각 구현 방식의 트레이드오프를 소개합니다.
Written by

Claude Code가 강한 진짜 이유, 모델이 아닌 6가지 구조에 있다
Claude Code가 일반 채팅 UI보다 강력한 이유는 모델이 아닌 코딩 하네스 구조 때문입니다. 레포 컨텍스트, 캐싱, 도구 권한 등 6가지 핵심 요소를 분석합니다.
Written by

AI가 일자리에 미치는 영향 어떻게 측정할까, Anthropic의 새로운 접근법
Anthropic의 AI 노동시장 보고서 분석. “이론적 역량” 수치의 출처와 한계, 그리고 실제 사용 데이터 기반의 새 지표 “observed exposure”를 소개합니다.
Written by

Qwen3.6-Plus, 에이전틱 코딩 강화해 Claude Opus 4.5급 성능 도달
Alibaba Qwen 팀이 에이전틱 코딩에 특화된 Qwen3.6-Plus를 공개했습니다. Claude Opus 4.5급 성능을 내세우며 독점 모델 전략으로 전환하는 배경을 소개합니다.
Written by

클래식 RAG의 실패 지점, 에이전틱 RAG가 다른 이유
클래식 RAG의 단방향 파이프라인이 왜 조용히 실패하는지, 에이전틱 RAG의 루프 구조가 어떻게 다른지를 비교 분석합니다.
Written by

Gemini API Agent Skill, 코딩 성공률 28%에서 96%로 끌어올린 방법
Google DeepMind가 AI 코딩 에이전트의 지식 공백 문제를 해결하는 Agent Skill을 개발. Gemini 3.1 Pro의 성공률이 28.2%에서 96.6%로 향상된 과정을 소개합니다.
Written by
