구글 Gemini Omni, 3년 만에 완성된 멀티모달 약속의 첫 구현

2023년 구글이 Gemini를 처음 발표할 때 내건 약속이 있었습니다. 텍스트, 이미지, 음성, 영상을 하나의 신경망에서 동시에 이해하고 생성하는 진정한 멀티모달 AI. 3년이 지난 지금, 그 약속의 첫 번째 구체적인 결과물이 나왔습니다.

사진 출처: Google Blog

구글 DeepMind가 Google I/O 2026에서 새로운 멀티모달 모델 패밀리 ‘Gemini Omni’를 공개했습니다. 텍스트·이미지·음성·영상을 입력으로 받아 고품질 영상을 생성하고 대화로 편집하는 모델로, 오늘부터 첫 번째 모델인 Gemini Omni Flash가 Gemini 앱, YouTube Shorts, Google Flow에 순차 출시됩니다.

출처: Introducing Gemini Omni – Google Blog

Veo와 무엇이 다른가

구글에는 이미 Veo라는 영상 생성 모델이 있습니다. 그렇다면 Omni는 Veo의 업그레이드판일까요? 구글 DeepMind의 제품 관리 디렉터 니콜 브리흐토바는 “그렇지 않다”고 선을 긋습니다. Veo는 텍스트나 이미지를 영상으로 변환하는 모델입니다. Omni는 Gemini의 추론 능력과 미디어 생성 능력을 하나로 합친 다른 종류의 모델입니다.

핵심 차이는 입력의 다양성과 추론 방식에 있습니다. Omni는 이미지, 음성, 영상, 텍스트를 동시에 받아 각각을 단순히 이어 붙이는 게 아니라, 그 안의 맥락을 함께 이해하고 하나의 일관된 결과물로 만들어냅니다. 구글 최고 기술자 코레이 카부크추올루는 이를 “텍스트를 예측하는 AI에서 현실을 시뮬레이션하는 AI로의 전환”이라고 표현했습니다.

대화로 편집하는 영상

Omni의 가장 눈에 띄는 기능은 대화형 영상 편집입니다. 지금까지의 영상 편집은 타임라인과 레이어를 다루는 소프트웨어 중심이었습니다. Omni에서는 자연어로 지시합니다.

작동 방식은 이렇습니다. 먼저 영상 클립을 올리고, “조각상을 비눗방울로 만들어줘”라고 입력하면 장면이 바뀝니다. 다음 지시는 앞선 결과 위에 쌓입니다. 인물의 일관성, 물리 법칙, 장면의 흐름이 편집을 거쳐도 유지되는 게 핵심입니다. 여러 번의 대화로 스타일, 카메라 앵글, 특정 오브젝트를 바꿔도 원본 장면의 맥락이 끊기지 않습니다.

물리 법칙을 이해하는 생성

Omni가 단순한 영상 생성 도구와 다른 또 하나의 지점은 물리적 이해입니다. 구슬이 구르는 장면을 만들면 중력과 운동 에너지가 반영된 움직임이 나옵니다. 유체가 등장하면 유체역학이 적용됩니다.

여기에 Gemini의 지식 베이스가 결합됩니다. “클레이메이션 스타일로 단백질 접힘을 설명하는 영상”이라는 짧은 프롬프트를 입력했을 때, Omni는 단백질 구조에 대한 실제 지식을 바탕으로 음성 해설이 포함된 스톱모션 영상을 만들어냈습니다. 시각적 스타일과 과학적 내용이 함께 작동한 결과입니다.

아바타와 안전장치

Omni에는 자신의 얼굴과 목소리로 영상을 만드는 디지털 아바타 기능도 포함됩니다. 딥페이크 악용을 막기 위해 전용 온보딩 과정(본인 얼굴 촬영 + 숫자 읽기)을 거쳐야 하고, 아바타는 본인 계정에만 저장됩니다. 또한 Omni로 만든 모든 영상에는 구글의 SynthID 디지털 워터마크가 자동으로 삽입됩니다. Gemini 앱, Gemini in Chrome, 구글 검색에서 AI 생성 여부를 확인할 수 있습니다.

지금 쓸 수 있는 것, 아직 안 되는 것

Omni Flash는 현재 최대 10초짜리 클립을 생성할 수 있습니다. 구글은 이를 모델의 한계가 아닌 의도적인 선택이라고 설명합니다. 소비자 대부분이 필요로 하는 길이에 맞춰 먼저 배포한 뒤, 더 긴 영상은 단계적으로 지원할 계획입니다. 음성 입력은 현재 보이스 레퍼런스만 지원되고, 다른 형태의 오디오 입력은 추후 추가됩니다.

편집 프롬프트의 정밀도도 중요합니다. 지시가 모호하면 원하지 않는 요소까지 바뀌는 과잉 편집이 발생할 수 있다고 구글 스스로 인정했습니다. Nano Banana 이미지 편집에서 이미 경험한 사용자들에게 익숙한 문제입니다.

Google AI Plus·Pro·Ultra 구독자는 Gemini 앱과 Flow에서 오늘부터 사용할 수 있고, YouTube Shorts는 무료로 제공됩니다. API는 몇 주 안에 개발자와 기업 고객에게 공개될 예정입니다. 더 높은 성능의 Omni Pro 모델은 Flash보다 확실한 성능 향상이 확인됐을 때 출시한다는 계획만 밝혀진 상태입니다.

구글이 처음 Gemini를 소개하며 약속했던 멀티모달의 완성형은 아직 아닙니다. 하지만 텍스트·이미지·음성·영상을 하나의 추론 흐름으로 처리해 영상을 만들어내는 첫 번째 소비자용 모델이 나왔다는 건, 그 방향으로 가는 첫 번째 실질적인 걸음입니다.

Like?

AI Sparkup

구글 Gemini Omni, 3년 만에 완성된 멀티모달 약속의 첫 구현

Veo와 무엇이 다른가

대화로 편집하는 영상

물리 법칙을 이해하는 생성

아바타와 안전장치

지금 쓸 수 있는 것, 아직 안 되는 것

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

구글 Gemini Omni, 3년 만에 완성된 멀티모달 약속의 첫 구현

Andrej Karpathy, Anthropic 합류, AI가 AI를 훈련하는 팀 이끈다

AI 칩 발열 공식을 뒤집다, 1,000배 빠르고 열이 없는 스위치

WordPress 7.0, AI를 코어에 내장한 첫 CMS로 거듭나다