멀티모달AI
AI 에이전트 100개가 동시에 일한다, Kimi K2.5 Agent Swarm 등장
Moonshot AI의 Kimi K2.5가 100개 AI 에이전트를 동시 조율하는 Agent Swarm으로 작업 속도를 4.5배 단축합니다. 오픈소스 모델의 새로운 가능성을 소개합니다.
Written by

AI는 전문가 시험은 통과하는데, 유치원생 문제는 왜 못 풀까
전문가 시험은 통과하지만 유아 문제는 못 푸는 AI. verbalization bottleneck이 만드는 기본기 실패를 분석합니다.
Written by

Google T5-Gemma-2로 노트북에서 이미지 분석하기: 실전 활용 가이드
Google T5-Gemma-2로 노트북에서 이미지와 텍스트를 동시에 처리하는 실전 가이드. 370M 파라미터로 차트 분석부터 긴 문서 요약까지 가능합니다.
Written by

AI가 제품 포장재를 읽는다: 멀티모달 시대의 픽셀 수준 이미지 SEO
멀티모달 AI가 이미지를 ‘읽는’ 방식과 SEO 전략. 제품 포장재 글씨 크기부터 사진 속 객체 조합, 모델 표정까지 검색 랭킹 요소가 되는 새로운 시대를 소개합니다.
Written by

구글 Gemini 3 Flash 출시: Pro급 성능을 3배 빠른 속도로, 무료 제공
구글이 Pro급 성능을 3배 빠른 속도로 제공하는 Gemini 3 Flash를 출시했습니다. 코딩 벤치마크 78% 달성, 무료 전방위 배포로 AI 대중화를 가속합니다.
Written by

Google Gemini 3 Pro: 18세기 필기체도 읽는 AI 비전의 5가지 혁신
Google의 Gemini 3 Pro가 18세기 필기체부터 62페이지 보고서까지 처리하는 최첨단 비전 AI 능력을 공개했습니다. 5가지 핵심 혁신을 소개합니다.
Written by

DeepMind CEO 하사비스가 그리는 AI의 미래: 월드 모델과 자율 에이전트의 시대
Google DeepMind CEO 데미스 하사비스가 제시한 AI의 미래 방향. 멀티모달 모델의 심층 이해, 1년 내 실현 예정인 자율 AI 에이전트, 그리고 게임 개발 패러다임을 바꿀 월드 모델 Genie 3를 소개합니다.
Written by

Mistral 3: 노트북에서 돌아가는 675B 파라미터 AI의 등장
Mistral AI가 노트북에서도 실행되는 10개의 오픈소스 모델 패밀리 Mistral 3를 공개. 클라우드 중심 AI에 도전하는 분산 AI 전략을 소개합니다.
Written by

2시간 영상 속 1프레임 찾기 99.5% 성공: Alibaba Qwen3-VL의 놀라운 시각 능력
Alibaba Qwen3-VL이 2시간 영상에서 특정 프레임을 99.5% 정확도로 찾아내는 놀라운 능력을 공개했습니다. 시각적 수학 문제에서 GPT-5를 능가하는 오픈소스 멀티모달 AI의 가능성을 소개합니다.
Written by

Gemini 3 Pro, 터미널에서 스케치를 앱으로 만든다: Google CLI 업데이트
구글이 Gemini CLI에 Gemini 3 Pro를 통합해 터미널에서 자연어만으로 3D 앱 생성, 스케치→코드 변환, 복잡한 디버깅을 수행할 수 있게 됐습니다. 개발 도구의 새로운 패러다임을 소개합니다.
Written by
