AI인프라
OpenAI·Microsoft 독점 해제, AI 클라우드 경쟁 구도가 바뀐다
OpenAI와 Microsoft가 독점 파트너십을 해제하고 계약을 전면 재편했습니다. 클라우드 경쟁 구도가 바뀌는 배경과 의미를 정리합니다.
Written by

Google TPU 8세대, 훈련·추론 칩 분리한 이유
Google이 8세대 TPU를 훈련용 8t와 추론용 8i로 분리한 이유와 각 칩의 핵심 설계 차이를 소개합니다. 에이전트 시대가 AI 인프라에 요구하는 것이 무엇인지 알 수 있습니다.
Written by

LLM 모델 크기 22% 줄인 Cloudflare, 품질은 그대로인 무손실 압축 원리
Cloudflare가 LLM 모델 크기를 22% 줄이면서 출력 품질은 그대로 유지하는 무손실 압축 시스템 Unweight를 개발했습니다. 핵심 원리와 결과를 소개합니다.
Written by

GPU 공급 부족이 만드는 AI 2계층, 개발자가 알아야 할 변화
Nvidia GPU 임대 가격이 2개월 만에 48% 급등하며 AI 모델 접근에 격차가 생기고 있습니다. 컴퓨트 공급 부족이 개발자 생태계에 미치는 구조적 변화를 분석합니다.
Written by

LLM 비용 추적, 생각보다 훨씬 복잡한 이유 6가지
LLM 비용 계산이 복잡한 이유 6가지 — 씽킹 토큰, 캐시 비대칭, 컨텍스트 임계값 등 실제 비용을 틀리게 만드는 숨겨진 패턴을 소개합니다.
Written by

TurboQuant에 “Pied Piper”라는 별명이 붙은 이유, 그리고 그 비교가 과장인 이유
구글 TurboQuant 발표에 업계가 ‘Pied Piper’, ‘DeepSeek 모멘트’라 반응한 이유와 그 비교가 과장인 이유를 분석합니다.
Written by

LiteLLM PyPI 감염 사건, AI 개발 공급망 공격이 작동하는 방식
AI API 프록시 LiteLLM이 PyPI에서 악성코드와 함께 배포된 사건. 보안 스캐너 Trivy 해킹으로 시작된 5일간의 연쇄 공급망 공격 TeamPCP 캠페인을 추적합니다.
Written by

에이전트 AI 도입 실태, 800명 설문이 보여주는 4가지 역설
Docker가 전 세계 805명 설문으로 분석한 에이전트 AI 도입 실태. 높은 도입률 뒤에 숨겨진 MCP 보안 공백, 오케스트레이션 복잡성, 배포 표준 부재를 짚습니다.
Written by

Anthropic vs OpenAI 빠른 추론, 같은 듯 전혀 다른 두 가지 방법
Anthropic과 OpenAI가 동시에 발표한 fast mode, 사실 작동 원리가 완전히 다릅니다. 배칭 조정 vs 웨이퍼 크기 칩, 두 가지 방식의 차이와 트레이드오프를 분석합니다.
Written by

