LLM
LLM에 감정을 넣으면 성능이 오를까, 6가지 감정 실험 결과
LLM에 감정 표현을 넣으면 성능이 오른다는 통념을 Harvard 연구팀이 실험으로 검증. 고정 감정은 효과 미미하지만, 적응형 감정 선택(EmotionRL)은 유효하다는 결과를 소개합니다.
Written by

AI 에이전트 메모리 설계, Claude Code와 Zep은 어떻게 다른가
AI 에이전트 메모리 시스템의 저장·검색·주입·생성 4단계를 Zep, Letta, Claude Code와 비교 분석. 긴 컨텍스트 창이 메모리를 대체할 수 없는 이유와 각 구현 방식의 트레이드오프를 소개합니다.
Written by

Claude Code가 강한 진짜 이유, 모델이 아닌 6가지 구조에 있다
Claude Code가 일반 채팅 UI보다 강력한 이유는 모델이 아닌 코딩 하네스 구조 때문입니다. 레포 컨텍스트, 캐싱, 도구 권한 등 6가지 핵심 요소를 분석합니다.
Written by

AI가 일자리에 미치는 영향 어떻게 측정할까, Anthropic의 새로운 접근법
Anthropic의 AI 노동시장 보고서 분석. “이론적 역량” 수치의 출처와 한계, 그리고 실제 사용 데이터 기반의 새 지표 “observed exposure”를 소개합니다.
Written by

Qwen3.6-Plus, 에이전틱 코딩 강화해 Claude Opus 4.5급 성능 도달
Alibaba Qwen 팀이 에이전틱 코딩에 특화된 Qwen3.6-Plus를 공개했습니다. Claude Opus 4.5급 성능을 내세우며 독점 모델 전략으로 전환하는 배경을 소개합니다.
Written by

클래식 RAG의 실패 지점, 에이전틱 RAG가 다른 이유
클래식 RAG의 단방향 파이프라인이 왜 조용히 실패하는지, 에이전틱 RAG의 루프 구조가 어떻게 다른지를 비교 분석합니다.
Written by

Gemini API Agent Skill, 코딩 성공률 28%에서 96%로 끌어올린 방법
Google DeepMind가 AI 코딩 에이전트의 지식 공백 문제를 해결하는 Agent Skill을 개발. Gemini 3.1 Pro의 성공률이 28.2%에서 96.6%로 향상된 과정을 소개합니다.
Written by

Wikipedia, AI 글쓰기 전면 금지, 40대 2 표결의 배경
Wikipedia가 자원봉사 에디터 커뮤니티의 40대 2 표결로 AI 기사 생성을 전면 금지했습니다. 수년간의 실험과 논쟁 끝에 내린 결정의 배경을 소개합니다.
Written by

벡터 DB 없이 RAG 정확도 높이는 두 가지 방법, Vercel과 PageIndex
벡터 유사도 검색의 한계를 넘는 두 가지 접근법 소개. Vercel의 파일시스템+bash 에이전트와 PageIndex의 추론 트리 방식을 비교합니다.
Written by

테런스 타오가 본 AI 수학의 함정, 아이디어는 넘치고 검증은 더 어렵다
필즈상 수학자 테런스 타오가 AI의 아이디어 생성 비용 0화와 검증 병목 문제를 자동차-도시 비유로 설명한 통찰. AI와 수학의 공존 인프라를 모색합니다.
Written by
