멀티모달AI
AI 모델, 복잡한 차트 앞에서 성능 절반 이상 추락, RealChart2Code 벤치마크 결과
RealChart2Code 벤치마크 연구 결과, 최상위 AI 모델도 복잡한 차트 앞에서 성능이 절반 이하로 떨어지는 ‘복잡도 갭’이 확인됐습니다.
Written by

AI 모델은 모를 때 물어보지 않는다, ProactiveBench가 밝힌 구조적 한계
AI 모델이 시각 정보가 부족할 때 도움을 요청하지 않고 그냥 틀린다는 ProactiveBench 연구 소개. 22개 모델 테스트 결과와 강화학습 기반 해결 가능성을 분석합니다.
Written by

이미지 속 실수 하나가 전부를 망친다, Qwen팀의 HopChain이 고친 방법
알리바바 Qwen팀이 개발한 HopChain은 AI 비전 모델이 다단계 추론 시 오류가 누적되는 문제를 훈련 데이터 구조에서 해결합니다. 24개 벤치마크 중 20개 성능 향상.
Written by

멀티모달 AI의 신기루 현상, 이미지 없이 방사선 전문의를 이긴 모델
스탠퍼드 연구팀이 발견한 멀티모달 AI의 미라지 효과 — 이미지 없이도 본 것처럼 답하며 방사선 전문의를 능가한 AI 모델의 실체를 소개합니다.
Written by

AI 에이전트 100개가 동시에 일한다, Kimi K2.5 Agent Swarm 등장
Moonshot AI의 Kimi K2.5가 100개 AI 에이전트를 동시 조율하는 Agent Swarm으로 작업 속도를 4.5배 단축합니다. 오픈소스 모델의 새로운 가능성을 소개합니다.
Written by

AI는 전문가 시험은 통과하는데, 유치원생 문제는 왜 못 풀까
전문가 시험은 통과하지만 유아 문제는 못 푸는 AI. verbalization bottleneck이 만드는 기본기 실패를 분석합니다.
Written by

Google T5-Gemma-2로 노트북에서 이미지 분석하기: 실전 활용 가이드
Google T5-Gemma-2로 노트북에서 이미지와 텍스트를 동시에 처리하는 실전 가이드. 370M 파라미터로 차트 분석부터 긴 문서 요약까지 가능합니다.
Written by

AI가 제품 포장재를 읽는다: 멀티모달 시대의 픽셀 수준 이미지 SEO
멀티모달 AI가 이미지를 ‘읽는’ 방식과 SEO 전략. 제품 포장재 글씨 크기부터 사진 속 객체 조합, 모델 표정까지 검색 랭킹 요소가 되는 새로운 시대를 소개합니다.
Written by

구글 Gemini 3 Flash 출시: Pro급 성능을 3배 빠른 속도로, 무료 제공
구글이 Pro급 성능을 3배 빠른 속도로 제공하는 Gemini 3 Flash를 출시했습니다. 코딩 벤치마크 78% 달성, 무료 전방위 배포로 AI 대중화를 가속합니다.
Written by

Google Gemini 3 Pro: 18세기 필기체도 읽는 AI 비전의 5가지 혁신
Google의 Gemini 3 Pro가 18세기 필기체부터 62페이지 보고서까지 처리하는 최첨단 비전 AI 능력을 공개했습니다. 5가지 핵심 혁신을 소개합니다.
Written by
