GPT-5
-
CAPTCHA의 종말?: Claude 60% vs GPT-5 28%, 과도한 추론이 실패를 부른다
최신 AI 모델들의 CAPTCHA 풀이 능력 벤치마크. Claude 60% vs GPT-5 28%, 과도한 추론이 오히려 실패를 초래하는 역설을 분석합니다.
Written by

-
Kimi K2 Thinking: 1조 파라미터로 GPT-5를 제친 오픈소스 모델의 비밀
중국 스타트업 Moonshot AI의 Kimi K2 Thinking이 GPT-5와 Claude를 제치고 추론 벤치마크 1위를 기록했습니다. 1조 파라미터 오픈소스 모델의 파괴적 가성비를 소개합니다.
Written by

-
AI 쇼핑 에이전트의 충격적 약점: 선택지가 많을수록 성능 급락
Microsoft Research가 AI 쇼핑 에이전트를 테스트한 결과, 선택지가 많을수록 성능이 급락하고 조작에 취약한 충격적 약점이 드러났습니다. AI 에이전트 경제의 실현 가능성을 다시 생각하게 하는 연구입니다.
Written by

-
매주 120만 명이 ChatGPT와 자살 상담: AI 정신건강 위기의 실체와 대응
OpenAI가 공개한 충격적 데이터 분석. 매주 120만 명이 ChatGPT와 자살 상담을 나누고 56만 명이 정신병 증상을 보이는 AI 정신건강 위기의 실체와 GPT-5 업데이트를 통한 대응 전략을 살펴봅니다.
Written by

-
GPT-5 기반 Aardvark, 취약점 92% 탐지하며 보안 연구의 새 기준 제시
OpenAI가 GPT-5 기반 자율형 보안 연구 에이전트 Aardvark를 공개했습니다. 벤치마크 테스트에서 92% 취약점 탐지율을 기록하며 인간 보안 연구자처럼 코드를 읽고 분석하는 새로운 접근 방식을 제시합니다.
Written by

-
ChatGPT가 회사 전체 정보를 검색한다: GPT-5 기반 Company Knowledge 활용법
ChatGPT Company Knowledge로 Slack부터 GitHub까지 회사 전체 정보를 한 번에 검색하는 방법. GPT-5 기반 통합 검색과 실전 활용법 소개.
Written by

-
AI가 전문가 업무 40% 대체? 헤드라인이 놓친 결정적 사실
GPT-5가 전문가 업무의 40%를 수행한다는 벤치마크 결과, 하지만 그 이면에 숨겨진 인간의 역할과 AI 시대 새로운 업무 방식인 할당 경제를 알아봅니다.
Written by

-
AgentKit 8분 라이브 데모: OpenAI가 에이전트 개발 시간을 70% 단축시킨 방법
OpenAI AgentKit으로 AI 에이전트 개발 시간을 70% 단축하세요. 8분 라이브 데모로 입증된 드래그앤드롭 방식의 Agent Builder, ChatKit, Connector Registry 활용법과 실제 기업 사례를 소개합니다.
Written by

-
Claude Sonnet 4.5, AI 코딩 모델의 새로운 챔피언
Anthropic의 Claude Sonnet 4.5가 SWE-bench에서 70.6%를 기록하며 GPT-5를 제치고 1위에 올랐다. 30시간 이상 자율 코딩이 가능하며 다양한 산업에서 실질적 성과를 보이고 있다.
Written by

-
개발자 도구 AI 전쟁: Claude가 선점한 시장에 GPT-5-Codex가 도전장을 내밀다
2025년 개발도구 시장에서 벌어지는 AI 패권 경쟁을 분석한 글. Claude가 Apple Xcode와 Microsoft Visual Studio Code를 점령한 상황에서 OpenAI가 GPT-5-Codex로 반격하는 현재 상황과 개발자들이 알아야 할 실질적인 변화를 다룹니다.
Written by
