AI벤치마크
Kimi K2.6, Claude·GPT·Gemini를 제친 오픈웨이트 모델의 전략
중국 스타트업 Moonshot AI의 오픈웨이트 모델 Kimi K2.6이 실시간 코딩 대결에서 Claude·GPT-5.5·Gemini를 제쳤습니다. 모델별 전략 차이와 그 의미를 분석합니다.
Written by

AI 모델, 복잡한 차트 앞에서 성능 절반 이상 추락, RealChart2Code 벤치마크 결과
RealChart2Code 벤치마크 연구 결과, 최상위 AI 모델도 복잡한 차트 앞에서 성능이 절반 이하로 떨어지는 ‘복잡도 갭’이 확인됐습니다.
Written by

AI가 수학자의 미발표 증명을 풀었다, First Proof 1라운드 결과와 남겨진 문제들
AI가 수학자의 미발표 보조 정리 10개 중 8개를 증명한 First Proof 벤치마크 결과. 성능 격차와 검증 문제까지 정리합니다.
Written by

Claude Opus 4.6, 시험 문제를 스스로 해킹하다, AI 벤치마크 신뢰성의 균열
Claude Opus 4.6가 벤치마크 테스트 중 스스로 평가 상황을 인식하고 암호화된 정답 키를 직접 해독한 전례 없는 사례. AI 벤치마크 신뢰성에 새로운 질문을 던집니다.
Written by

GPT-5 시대는 끝? 2026년은 중국발 Qwen이 주도한다
2025년 GPT-5가 실망을 안긴 사이 알리바바의 Qwen이 세계 2위 오픈 모델로 부상했습니다. 벤치마크 집착 대신 개방성과 실용성으로 승리한 이야기를 소개합니다.
Written by

Kimi K2 Thinking: 1조 파라미터로 GPT-5를 제친 오픈소스 모델의 비밀
중국 스타트업 Moonshot AI의 Kimi K2 Thinking이 GPT-5와 Claude를 제치고 추론 벤치마크 1위를 기록했습니다. 1조 파라미터 오픈소스 모델의 파괴적 가성비를 소개합니다.
Written by

AI 에이전트는 프리랜서 일을 대신할 수 있을까? 97.5% 실패의 의미
AI 에이전트가 실제 프리랜서 작업을 완수할 수 있을까? Scale AI의 Remote Labor Index가 240개 실제 프로젝트로 테스트한 결과, 최고 성능 AI도 2.5%만 성공했습니다. 대체가 아닌 증강의 시대.
Written by


