GPT-5
GPT-5 토크나이저 해부, Google은 1토큰인데 OpenAI는 2토큰인 이유
GPT-5 토크나이저 20만 개 토큰 분석 결과. Google은 1토큰인데 OpenAI는 2토큰인 이유, ChatGPT가 URL을 자주 틀리는 구조적 원인을 소개합니다.
Written by

OpenAI의 사내 데이터 에이전트, 600페타바이트 속에서 답 찾는 법
OpenAI가 600페타바이트 데이터를 자연어로 분석하는 사내 에이전트 아키텍처 공개. 코드 크롤링, 6개 레이어 컨텍스트, 자가 수정 메커니즘 분석.
Written by

AI 코딩 모델이 퇴보하고 있다, GPT-5의 위험한 실패 방식
AI 코딩 모델이 2025년 들어 퇴보하며 조용히 실패하는 위험한 패턴을 보입니다. GPT-4와 GPT-5의 체계적 비교 실험으로 밝혀진 충격적 결과를 분석합니다.
Written by

AI는 시험은 잘 보는데 왜 어려운지는 모른다: 언어모델의 ‘지식의 저주’
GPT-5를 포함한 최신 언어모델들이 시험 문제는 잘 풀지만 그 문제가 학생들에게 얼마나 어려운지는 전혀 모른다는 연구 결과. AI의 ‘지식의 저주’가 교육 기술에 미치는 영향을 살펴봅니다.
Written by

GPT-5 시대는 끝? 2026년은 중국발 Qwen이 주도한다
2025년 GPT-5가 실망을 안긴 사이 알리바바의 Qwen이 세계 2위 오픈 모델로 부상했습니다. 벤치마크 집착 대신 개방성과 실용성으로 승리한 이야기를 소개합니다.
Written by

AI가 스마트 컨트랙트 해킹한다: Claude와 GPT-5, 460만 달러 취약점 발견
Anthropic과 MATS 연구에서 Claude와 GPT-5가 스마트 컨트랙트 취약점을 찾아 460만 달러 상당을 탈취. AI 공격 능력이 1.3개월마다 2배씩 증가하는 현실을 분석합니다.
Written by

DeepSeek V3.2, 추론 비용 70% 낮춘 AI 모델로 GPT-5에 도전장
중국 DeepSeek가 추론 비용 70% 절감한 AI 모델 V3.2로 GPT-5에 도전장. 올림피아드 금메달급 성능을 MIT 라이선스로 무료 공개한 배경과 의미.
Written by

CAPTCHA의 종말?: Claude 60% vs GPT-5 28%, 과도한 추론이 실패를 부른다
최신 AI 모델들의 CAPTCHA 풀이 능력 벤치마크. Claude 60% vs GPT-5 28%, 과도한 추론이 오히려 실패를 초래하는 역설을 분석합니다.
Written by

Kimi K2 Thinking: 1조 파라미터로 GPT-5를 제친 오픈소스 모델의 비밀
중국 스타트업 Moonshot AI의 Kimi K2 Thinking이 GPT-5와 Claude를 제치고 추론 벤치마크 1위를 기록했습니다. 1조 파라미터 오픈소스 모델의 파괴적 가성비를 소개합니다.
Written by

AI 쇼핑 에이전트의 충격적 약점: 선택지가 많을수록 성능 급락
Microsoft Research가 AI 쇼핑 에이전트를 테스트한 결과, 선택지가 많을수록 성능이 급락하고 조작에 취약한 충격적 약점이 드러났습니다. AI 에이전트 경제의 실현 가능성을 다시 생각하게 하는 연구입니다.
Written by
