AI 기술 분석
Gemma 4 추론 속도 3배 높인 MTP 드래프터, 작동 원리는
Google이 Gemma 4에 MTP 드래프터를 추가해 품질 손실 없이 최대 3배 추론 속도를 달성했습니다. Speculative Decoding의 작동 원리와 개발자에게 갖는 의미를 설명합니다.
Written by

LLM이 문서에서 스스로 공부하는 법, Ctx2Skill 멀티에이전트 프레임워크
LLM이 전문 문서에서 스킬을 자동 추출·진화시키는 Ctx2Skill 프레임워크 소개. 파인튜닝 없이 어떤 모델에도 적용 가능한 멀티에이전트 셀프플레이 방식을 다룹니다.
Written by

Claude가 말 안 한 생각을 읽는다, Anthropic의 NLA 해석 기술
Anthropic이 Claude의 내부 활성화를 자연어로 변환하는 NLA 기술을 공개했습니다. Claude가 말하지 않은 생각과 숨겨진 동기를 읽어내는 새로운 AI 감사 도구입니다.
Written by

Claude Code가 캐시 적중률에 SEV를 선언하는 이유, 프롬프트 캐싱 설계법
Claude Code 팀이 공유한 프롬프트 캐싱 설계 원칙. 캐시 적중률을 업타임처럼 관리하는 이유와, 도구 설계·모델 전환·Compaction에서 캐시를 보호하는 방법을 설명합니다.
Written by

AI 에이전트가 토큰을 낭비하는 이유, 코드로 생각하게 만드는 해법
AI 에이전트가 파일을 읽을수록 컨텍스트가 망가지는 구조적 이유와, Cloudflare와 독립 개발자가 각자 도달한 같은 해법을 소개합니다.
Written by

AI가 이미지 속 글자를 못 읽던 이유, GPT Image 2가 그걸 바꾼 방법
GPT Image 2가 이미지 속 글자를 정확하게 렌더링할 수 있게 된 이유는 단순한 개선이 아닌 아키텍처 전환 덕분입니다. 디퓨전 모델에서 토큰 기반 생성으로의 변화와 Thinking 모드, 가격 구조까지 정리합니다.
Written by

실패도 자산이다, Google ReasoningBank가 AI 에이전트 기억을 바꾸는 방식
Google Research가 발표한 ReasoningBank는 AI 에이전트가 성공과 실패 경험 모두에서 고수준 추론 패턴을 학습하는 메모리 프레임워크입니다. 에이전트가 경험을 통해 스스로 성장하는 새로운 스케일링 방향을 제시합니다.
Written by

OpenAI Privacy Filter, PII를 문맥으로 구분하는 1.5B 오픈 모델 공개
OpenAI가 공개한 PII 탐지·마스킹 오픈 모델 Privacy Filter. 문맥 기반으로 공개·사적 정보를 구분하며, 로컬 실행과 파인튜닝을 지원합니다.
Written by

Gemma 4가 증명한 것, AI 모델은 이제 하나의 설계로 모든 곳을 커버할 수 없다
Google Gemma 4가 엣지와 서버를 아예 다른 아키텍처로 설계한 이유. 하드웨어 제약이 AI 모델 설계를 어떻게 바꾸고 있는지 분석합니다.
Written by

Claude Code 소스코드를 뜯어봤더니, 아키텍처에서 발견한 5가지 설계 원칙
Claude Code TypeScript 소스코드를 직접 분석한 논문에서 드러난 5가지 설계 원칙. Anthropic이 공개하지 않은 에이전트 내부 구조를 해부합니다.
Written by
