멀티모달
구글 Gemini Omni, 3년 만에 완성된 멀티모달 약속의 첫 구현
구글이 Google I/O 2026에서 공개한 Gemini Omni는 텍스트·이미지·음성·영상을 동시에 받아 영상을 생성·편집하는 첫 멀티모달 모델입니다.
Written by

Gemini 3.5 Flash, 경쟁 모델 4배 빠르지만 실질 비용은 전작의 5배
구글 I/O 2026에서 공개된 Gemini 3.5 Flash 분석. 에이전트 전용 설계로 성능은 올랐지만 실질 비용은 전작 대비 5.5배 오른 배경을 설명합니다.
Written by

Thinking Machines 인터랙션 모델, AI와 대화하는 방식을 바꾸는 새로운 접근
Thinking Machines Lab의 인터랙션 모델 발표. 턴 방식 AI의 협업 병목을 해결하는 마이크로 턴 기반 실시간 멀티모달 구조를 소개합니다.
Written by

NVIDIA Nemotron 3 Nano Omni, 멀티모달 에이전트 처리량 9배 높인 방법
NVIDIA Nemotron 3 Nano Omni는 텍스트·이미지·영상·오디오를 단일 모델로 처리하는 오픈 멀티모달 모델입니다. 파편화된 에이전트 체인 구조를 통합해 처리량을 최대 9배 높인 방법을 소개합니다.
Written by

Mistral Small 4, 추론·멀티모달·코딩을 하나로 합친 119B 오픈소스 모델
Mistral AI가 추론·멀티모달·코딩 에이전트 기능을 통합한 119B 오픈소스 모델 Mistral Small 4를 공개했습니다. MoE 아키텍처로 효율을 유지하면서 다목적 활용이 가능한 모델입니다.
Written by

Gemini Embedding 2, 텍스트·이미지·영상·오디오를 하나의 공간에 통합한 방법
Google DeepMind의 Gemini Embedding 2는 텍스트·이미지·영상·오디오·문서를 하나의 벡터 공간에 통합한 최초의 네이티브 멀티모달 임베딩 모델입니다. 멀티모달 AI 파이프라인을 단순화합니다.
Written by

AI 이미지 검색이 실패하는 이유, 못 보는 게 아니라 못 계획하는 것
AI 이미지 검색이 개인 사진첩에서 맥락 기반 검색에 실패하는 근본 원인 분석. 최신 모델도 정답률 29% 수준, 문제는 시각이 아닌 멀티스텝 추론 능력.
Written by

Qwen3.5, 397B MoE 아키텍처로 네이티브 멀티모달 에이전트 시대 열다
Alibaba가 공개한 Qwen3.5는 397B 파라미터 MoE 모델로, 추론 시 17B만 활성화해 비용을 낮추고 네이티브 멀티모달과 에이전트 특화 훈련을 결합했습니다.
Written by

ByteDance Seedance 2.0, 멀티모달 입력으로 AI 비디오 생성 한계 넘다
ByteDance Seedance 2.0, 이미지·비디오·오디오·텍스트를 동시 입력받아 시네마틱 AI 비디오 생성. 카메라 워크 전달과 영상 확장 기능 소개.
Written by

