지금까지 멀티모달 AI 시스템을 구축하려면 텍스트용 임베딩 모델, 이미지용 임베딩 모델을 각각 따로 돌려야 했습니다. 서로 다른 형태의 데이터를 비교하려면 중간에 변환 단계도 필요했고요. Google DeepMind가 3월 10일 공개한 Gemini Embedding 2는 이 구조를 바꿉니다. 텍스트, 이미지, 영상, 오디오, 문서 다섯 가지 모달리티를 단 하나의 벡터 공간에 통합한 최초의 네이티브 멀티모달 임베딩 모델입니다.

Google DeepMind의 Tom Duerig가 발표한 이 모델은 Gemini 아키텍처를 기반으로 구축됐으며, 현재 Gemini API와 Vertex AI를 통해 퍼블릭 프리뷰로 이용할 수 있습니다.
출처: Gemini Embedding 2: Our first natively multimodal embedding model – Google Blog
임베딩 공간을 통합한다는 것의 의미
임베딩은 데이터의 의미를 숫자 벡터로 표현하는 기술입니다. 비슷한 의미를 가진 데이터는 벡터 공간에서 가까운 위치에 놓이게 됩니다. 이 기술이 시맨틱 검색, RAG(검색 증강 생성), 감성 분석의 핵심 기반입니다.
문제는 이 공간이 모달리티마다 달랐다는 겁니다. 텍스트의 “고양이”와 고양이 사진이 같은 공간에 있지 않으면, 텍스트 검색어로 이미지를 직접 찾을 수 없습니다. Gemini Embedding 2는 다섯 가지 모달리티를 하나의 동일한 공간에 배치합니다. 텍스트 쿼리로 영상을 검색하거나, 이미지로 관련 문서를 찾는 작업을 별도 파이프라인 없이 처리할 수 있게 되는 거죠.
여기서 한발 더 나아가 ‘인터리브드 입력(interleaved input)’도 지원합니다. 이미지와 텍스트 설명을 하나의 요청에 섞어서 보낼 수 있고, 모델은 그 두 가지 사이의 관계까지 포착해 임베딩에 반영합니다.
오디오를 텍스트 변환 없이 직접 처리
기존 오디오 임베딩 방식의 가장 큰 약점은 음성을 먼저 텍스트로 변환한 뒤 임베딩한다는 점이었습니다. 이 과정에서 억양, 감정, 화자의 특성 같은 정보가 사라집니다.
Gemini Embedding 2는 오디오를 네이티브로 처리합니다. 음성 데이터를 텍스트를 거치지 않고 바로 벡터로 변환하기 때문에, 텍스트 전사 과정에서 날아가던 음향적 의미까지 임베딩에 담을 수 있습니다. 이는 음성 검색이나 멀티모달 감성 분석처럼 오디오의 맥락이 중요한 응용 분야에서 의미 있는 차이를 만듭니다.
벤치마크로 본 성능 위치
Google이 공개한 벤치마크에서 Gemini Embedding 2는 Amazon Nova 2 Multimodal Embeddings, Voyage Multimodal 3.5와 비교해 모든 항목에서 앞섰습니다.
텍스트·영상 태스크에서는 68.8점으로 Amazon Nova 2(60.3)와 Voyage Multimodal 3.5(55.2)를 크게 앞서고, 텍스트·이미지 비교에서는 93.4점 대 Amazon의 84.0점 수준입니다. 텍스트만 놓고 보면 전 모델 대비 컨텍스트 길이도 4배(2,048 → 8,192 토큰) 늘었습니다.
유연성도 눈에 띕니다. Matryoshka Representation Learning(MRL) 기법을 적용해 출력 차원을 기본값 3,072에서 1,536, 768로 줄일 수 있어 품질과 스토리지 비용 사이의 균형을 조절할 수 있습니다.
멀티모달 파이프라인의 복잡도를 낮추는 방향
임베딩 모델의 역할은 화려하지 않습니다. 직접 답을 생성하는 게 아니라, 데이터를 검색하고 연결하는 인프라 역할을 하죠. 그렇기 때문에 파이프라인이 단순해질수록 오류 지점이 줄어들고 유지 관리 비용도 낮아집니다.
각 모달리티별로 다른 모델을 관리하는 대신 하나로 통합된다는 건 구조적 단순화입니다. 다만 Google의 벤치마크는 자체 공개 수치인 만큼, 실제 다양한 사용 환경에서의 성능은 원문과 파트너 사례들을 통해 더 살펴볼 필요가 있습니다.
현재 Gemini API와 Vertex AI에서 퍼블릭 프리뷰로 이용 가능하며, LangChain·LlamaIndex·Weaviate·ChromaDB 등 주요 프레임워크 연동도 지원합니다.
참고자료:

답글 남기기