멀티모달
AI 이미지 검색이 실패하는 이유, 못 보는 게 아니라 못 계획하는 것
AI 이미지 검색이 개인 사진첩에서 맥락 기반 검색에 실패하는 근본 원인 분석. 최신 모델도 정답률 29% 수준, 문제는 시각이 아닌 멀티스텝 추론 능력.
Written by

Qwen3.5, 397B MoE 아키텍처로 네이티브 멀티모달 에이전트 시대 열다
Alibaba가 공개한 Qwen3.5는 397B 파라미터 MoE 모델로, 추론 시 17B만 활성화해 비용을 낮추고 네이티브 멀티모달과 에이전트 특화 훈련을 결합했습니다.
Written by

ByteDance Seedance 2.0, 멀티모달 입력으로 AI 비디오 생성 한계 넘다
ByteDance Seedance 2.0, 이미지·비디오·오디오·텍스트를 동시 입력받아 시네마틱 AI 비디오 생성. 카메라 워크 전달과 영상 확장 기능 소개.
Written by

DeepSeek OCR 2, 비주얼 토큰 80% 줄이고 Gemini 3 Pro 능가
DeepSeek OCR 2가 비주얼 토큰을 80% 줄이면서도 Gemini 3 Pro를 능가한 비결. 의미 기반 이미지 재배열로 문서 AI의 새 지평을 엽니다.
Written by

TranslateGemma, 절반 크기로 두 배 성능을 내는 구글의 번역 AI
구글의 TranslateGemma는 12B 모델이 27B보다 우수한 성능을 내며, 모바일부터 클라우드까지 55개 언어 번역을 지원하는 오픈소스 AI입니다.
Written by

LLM들의 이미지 속 인물 식별 능력 비교: Google Gemini가 앞서는 이유
주요 멀티모달 LLM들의 이미지 속 인물 식별 능력을 비교 분석하고, Google Gemini가 높은 정확도를 보이는 반면 ChatGPT와 Claude는 개인정보 보호 정책으로 인해 제한되는 현상을 다룬 글
Written by

컨텍스트 엔지니어링 실전 가이드: LLM 에이전트의 성능을 10배 높이는 7가지 구현 전략
AI 에이전트의 성능을 극대화하는 컨텍스트 엔지니어링 실전 가이드입니다. 7가지 핵심 전략과 구체적인 코드 구현, 업종별 베스트 프랙티스, 실제 성과 데이터까지 포함한 완전한 실무 매뉴얼을 제공합니다.
Written by

Qwen2.5: 모든 모달리티를 아우르는 AI의 진화
알리바바 클라우드의 Qwen 팀이 개발한 최신 AI 모델인 Qwen2.5 시리즈를 소개합니다. 텍스트, 이미지, 오디오, 비디오를 모두 처리할 수 있는 Qwen2.5-Omni와 시각-언어 모델인 Qwen2.5-VL의 특징과 성능을 자세히 분석하고, 이 혁신적인 기술이 미래 AI 응용에 미칠 영향을 살펴봅니다.
Written by


