AI 벤치마크
-
Microsoft 첫 자체 이미지 AI ‘MAI-Image-1’, LMArena 9위 데뷔의 의미
Microsoft가 자체 개발한 첫 이미지 생성 AI MAI-Image-1을 발표하며 LMArena 9위에 데뷔했습니다. OpenAI 의존도를 줄이고 사진 리얼리즘에 집중한 Microsoft의 전략을 살펴봅니다.
Written by
-
AI가 전문가 업무 40% 대체? 헤드라인이 놓친 결정적 사실
GPT-5가 전문가 업무의 40%를 수행한다는 벤치마크 결과, 하지만 그 이면에 숨겨진 인간의 역할과 AI 시대 새로운 업무 방식인 할당 경제를 알아봅니다.
Written by
-
AI 벤치마크의 함정: 과학 연구를 방해하는 잘못된 평가 시스템
과학 분야에서 AI 도구를 평가하는 벤치마크 시스템의 문제점과 이것이 연구에 미치는 악영향을 분석하고, 올바른 AI 도구 선택을 위한 해결 방안을 제시합니다.
Written by
-
중국 Z.ai의 GLM-4.5: AI 패권 경쟁의 새로운 변수
중국 Z.ai의 GLM-4.5 모델이 Claude 4 Opus와 OpenAI o3을 능가하는 성능을 보이며 글로벌 AI 패권 경쟁에 새로운 변화를 가져오고 있는 현상을 분석합니다.
Written by
-
Grok 4 출시: xAI가 AI 업계 1위 자리를 차지하다 – 월 30만원 프리미엄 서비스의 의미
엘론 머스크의 xAI가 출시한 Grok 4가 AI 벤치마크에서 1위를 차지하며 업계 판도를 바꾸고 있습니다. 월 30만원의 프리미엄 구독 서비스와 함께 AI 시장의 새로운 경쟁 구도를 분석합니다.
Written by
-
AI가 놓치는 것들: 언어모델의 숨겨진 약점을 밝힌 AbsenceBench 연구
최신 LLM들이 정보 검색에는 뛰어나지만 누락된 정보 탐지에는 현저히 부족하다는 AbsenceBench 연구를 분석하고, 이것이 AI 활용에 미치는 실무적 시사점을 제시합니다.
Written by