AI 모델마다 윤리 기준이 다르다, Philosophy Bench 100개 딜레마 분석
100개 윤리 딜레마로 AI 모델의 도덕적 성향을 측정한 Philosophy Bench 분석. Claude는 거짓말보다 거절을, Grok은 요청 수행을 택하는 등 모델마다 뚜렷한 차이를 보입니다.
Written by
GPT-Realtime-2, 실시간 음성에 GPT-5급 추론 결합한 OpenAI 신모델 3종
OpenAI가 GPT-5급 추론을 탑재한 실시간 음성 모델 GPT-Realtime-2와 번역·전사 모델을 API로 출시. 음성이 단순 입력을 넘어 추론·행동하는 인터페이스로 진화합니다.
Written by
코딩 에이전트가 빠를수록, 진짜 병목이 드러난다
코딩 에이전트가 개인 생산성을 높일수록 팀의 진짜 병목이 드러난다는 .txt 엔지니어의 통찰. 코드가 아닌 맥락과 합의가 새로운 속도 결정 변수임을 설명합니다.
Written by
AI 앱 성장 공식이 바뀌었다, 모델 업그레이드보다 이미지 기능이 6.5배 효과적
이미지 모델 출시가 언어모델 업그레이드보다 6.5배 더 많은 다운로드를 이끈다는 Appfigures 분석. 단, 다운로드 급증이 곧 수익으로 이어지지 않는다는 반전 데이터도 담겨 있습니다.
Written by
Mythos가 찾은 수천 개 취약점, 실제로 얼마나 무서울까
Anthropic Mythos가 수천 개의 취약점을 찾아낸다고 방어팀이 무너지는 건 아닙니다. 보안 탐지 로직 10년 경력의 전문가가 exploit 수와 탐지 능력이 원래부터 1:1이 아닌 이유를 설명합니다.
Written by
Claude Managed Agents 드리밍 기능, AI 에이전트 자기개선의 첫 단계
Anthropic이 Claude Managed Agents에 드리밍, 아웃컴, 멀티에이전트 오케스트레이션을 추가했습니다. 에이전트가 세션을 넘어 경험을 축적하고 스스로 개선하는 구조를 소개합니다.
Written by
LLM 코딩이 10배 생산성을 만들 수 없는 이유, 40년 전에 이미 증명됐다
Fred Brooks의 No Silver Bullet 논증으로 LLM 코딩 도구의 한계를 분석. DORA·CircleCI 실증 데이터가 뒷받침하는 이유를 소개합니다.
Written by
Claude Code 스킬 제대로 만드는 법, 직접 먼저 풀어본 다음에 써라
Claude Code 스킬(자동화 워크플로)은 처음부터 문서를 쓰지 않고 직접 문제를 풀어본 뒤, 컨텍스트를 초기화한 서브에이전트로 드라이런을 반복하며 만들어집니다.
Written by
Claude Code 한도 2배 인상, 80배 성장이 SpaceX 품에 안긴 이유
Anthropic이 SpaceX Colossus 1 데이터센터 계약으로 Claude Code 사용 한도를 2배 올렸습니다. 80배 성장이 만들어낸 인프라 위기와 Musk 태도 급변의 배경을 정리했습니다.
Written by
Ask Jeeves 30년 만에 종료, AI 검색이 그 유산을 이어받다
30년 만에 종료된 Ask Jeeves가 남긴 역설 — 자연어 검색의 선구자였지만 시장에서 패배했고, 이제 AI 검색이 그 방식을 표준으로 만들고 있습니다.
Written by









