AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

구글 Veo 3.1, AI 영상 생성의 새 기준: 오디오·편집·세로영상까지

OpenAI의 Sora가 9월 말 iPhone 앱으로 출시되며 1위를 차지한 지 불과 2주 만에, 구글이 Veo 3.1과 강력한 편집 도구로 맞불을 놓았습니다. 단순 생성을 넘어 정밀한 편집, 풍부한 오디오, 세로 영상 지원까지 갖춘 Veo 3.1은 AI 영상 제작을 프로덕션 수준으로 끌어올리며 크리에이터와 개발자 모두에게 새로운 가능성을 열어주고 있습니다.

구글의 AI 영상 제작 도구 Flow와 Veo 3.1 (출처: Google Blog)

핵심 포인트:

  • 오디오 품질과 프롬프트 정확도 대폭 향상: 자연스러운 대화부터 동기화된 효과음까지 생성하며, 사용자의 지시를 더욱 정확하게 구현
  • 정밀 편집의 시작: Flow에 ‘Insert’ 기능 추가로 그림자와 조명까지 자동 조정하며 새 요소 삽입, 곧 ‘Remove’ 기능으로 원치 않는 요소 제거도 가능
  • 세로 영상과 장면 확장: 16:9 세로 영상 지원으로 YouTube Shorts와 틱톡 대응, 1분 이상 영상으로 확장 가능한 ‘Scene Extension’ 기능

더 정확하고 풍부해진 Veo 3.1

Veo 3는 출시 5개월 만에 Flow를 통해 2억 7,500만 개 이상의 영상을 생성하며 크리에이터들의 사랑을 받았습니다. 그런데 구글은 여기서 멈추지 않았습니다.

Veo 3.1의 가장 큰 변화는 오디오입니다. 자연스러운 대화부터 장면에 동기화된 효과음까지 생성할 수 있게 됐죠. 이전 버전에서도 오디오 생성이 가능했지만, 3.1에서는 품질이 한 단계 더 높아졌습니다.

프롬프트 정확도도 크게 개선됐습니다. 사용자가 입력한 지시를 더욱 정확하게 이해하고 구현하게 되면서, 원하는 결과를 얻기 위해 프롬프트를 여러 번 수정할 필요가 줄어들었습니다. 이는 컴퓨팅 비용 절감으로도 이어지죠.

이미지를 영상으로 변환하는 기능도 한층 강화됐습니다. 여러 장면에서 캐릭터의 일관성을 유지하면서도 더 나은 오디오와 비주얼 품질을 제공합니다.

Flow, 프로덕션 수준의 편집 도구로 진화

Veo 3.1 Ingredients to Video 기능
최대 3개의 참조 이미지로 영상을 가이드하는 ‘Ingredients to Video’ 기능 (출처: Google Developers Blog)

구글의 AI 영상 제작 도구 Flow가 단순 생성을 넘어 정밀 편집이 가능한 플랫폼으로 변모하고 있습니다.

Ingredients to Video는 최대 3개의 참조 이미지로 캐릭터, 사물, 스타일을 지정할 수 있는 기능입니다. 여러 장면에서 동일한 캐릭터를 유지하거나 특정 스타일을 일관되게 적용할 때 유용합니다. 이제 모든 이미지 기반 기능에서 오디오가 함께 생성됩니다.

Frames to Video는 시작 이미지와 끝 이미지를 제공하면 그 사이를 자연스럽게 연결하는 영상을 만들어줍니다. 장면 전환이 필요한 경우에 활용할 수 있죠.

Scene Extension은 기존 클립의 마지막 1초를 기반으로 영상을 확장합니다. 1분 이상의 긴 영상도 만들 수 있어 장면 설정이나 배경 샷을 제작할 때 특히 유용합니다.

가장 주목할 만한 건 새로운 편집 기능들입니다. Insert 기능은 완성된 영상에 새로운 요소를 추가할 수 있게 해줍니다. 창문에 빗방울을 더하거나 하늘에 용을 날리는 것도 가능하죠. 놀라운 점은 그림자와 조명까지 자동으로 조정해 자연스럽게 보이도록 만든다는 겁니다.

곧 출시될 Remove 기능은 영상에서 원치 않는 요소를 제거하고 배경을 재구성해 마치 처음부터 없었던 것처럼 만들어줍니다.

YouTube Shorts 시대를 위한 세로 영상

Veo 3는 720p 가로 영상만 지원했지만, 3.1은 16:9 세로 영상도 생성할 수 있습니다. 틱톡과 YouTube Shorts가 주류가 된 지금, 이는 매우 중요한 변화입니다.

구글은 올해 여름 Veo를 YouTube Shorts에 도입하겠다고 밝힌 바 있습니다. Veo 3.1의 세로 영상 지원은 이 약속을 실현하기 위한 핵심 기반이죠. 곧 YouTube에서 AI가 만든 Shorts를 더욱 자주 보게 될 겁니다.

개발자를 위한 접근성

Veo 3.1 First and Last Frame 기능
시작과 끝 프레임을 지정해 자연스러운 전환 생성 (출처: Google Developers Blog)

Veo 3.1은 Gemini API와 Vertex AI를 통해 유료 프리뷰로 제공됩니다. 가격은 Veo 3와 동일하고, Veo 3.1 Fast 버전도 함께 출시돼 빠른 생성이 필요한 경우에 활용할 수 있습니다.

ComfyUI에서도 Veo 3.1을 사용할 수 있게 됐습니다. ComfyUI는 노드 기반의 AI 워크플로우 툴로, 개발자들이 복잡한 AI 파이프라인을 시각적으로 구성하는 데 널리 쓰입니다. Veo 3.1 API 노드를 추가하면 로컬 설정 없이 즉시 사용할 수 있고, 기존 워크플로우에도 자연스럽게 통합됩니다.

Promise Studios와 Latitude 같은 기업들은 이미 Veo 3.1을 활용해 생성형 스토리텔링과 프리비주얼라이제이션 작업을 진행하고 있습니다.

Sora와의 경쟁, 그리고 진짜 싸움의 시작

OpenAI는 9월 30일 Sora 2와 함께 iPhone 앱을 출시했습니다. 이틀 만에 미국 앱스토어 1위에 올랐죠. 구글이 불과 2주 만에 Veo 3.1을 내놓은 건 우연이 아닙니다.

두 회사의 경쟁은 AI 영상 생성 기술을 빠르게 발전시키고 있습니다. Sora는 물리적 정확도와 현실감을, Veo는 편집 기능과 플랫폼 통합을 강조합니다. 결국 승자는 사용자가 될 겁니다. 더 나은 도구, 더 많은 선택지를 갖게 되니까요.

AI 영상 생성은 이제 실험 단계를 벗어나 실용화 단계에 접어들었습니다. 크리에이터들은 저비용으로 빠르게 프로토타입을 만들 수 있고, 마케터들은 소셜 미디어용 콘텐츠를 쉽게 제작할 수 있습니다. 개발자들은 API를 통해 자동화된 영상 제작 시스템을 구축할 수 있죠.

물론 AI가 만든 영상을 실제와 구분하기 어려워지면서 새로운 문제도 생기고 있습니다. 하지만 기술의 발전을 막을 수는 없습니다. 중요한 건 이 도구들을 어떻게 책임감 있게 사용하느냐죠.


참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다