2023년 3월, 인터넷을 강타한 영상이 하나 있었습니다. 배우 윌 스미스가 스파게티를 먹는 것처럼 보이는 8초짜리 영상이었는데, 자세히 보면 뭔가 이상했습니다. 얼굴이 일그러지고, 스파게티가 허공에서 사라지며, 전체적으로 끔찍하게 부자연스러웠죠. 이것이 바로 초기 AI 비디오 생성 기술의 현실이었습니다.
그로부터 2년이 지난 지금, 구글이 출시한 Veo 3는 그 당시를 떠올리게 하는 동일한 테스트를 통과했습니다. 하지만 이번엔 달랐습니다. 윌 스미스가 자연스럽게 스파게티를 먹는 모습은 물론, 소리까지 들려왔습니다. 다만 한 가지 이상한 점이 있었다면, 부드러운 스파게티를 먹는데도 바삭바삭 씹는 소리가 난다는 것이었죠.
2023년과 2025년 윌 스미스 AI 비디오 비교 – 기술의 발전이 눈에 띕니다
AI 비디오 생성의 새로운 전환점
구글이 이번 주 I/O 컨퍼런스에서 공개한 Veo 3는 AI 비디오 생성 분야에서 중요한 이정표를 세웠습니다. 주요 AI 비디오 생성 모델 중 최초로 동기화된 오디오 트랙을 생성할 수 있는 기능을 선보인 것입니다. 2022년부터 2024년까지 우리가 본 AI 비디오들은 모두 무음이었고 길이도 매우 짧았습니다. 하지만 이제는 8초 길이의 HD 비디오 클립에서 음성, 대화, 효과음까지 들을 수 있게 되었습니다.
구글의 Gemini 부사장 조시 우드워드는 키노트에서 “우리는 새로운 창작의 시대에 접어들고 있다”며 “놀라울 정도로 현실적”이라고 설명했습니다. 실제로 많은 사용자들이 테스트해본 결과, 그의 말이 과장이 아님이 드러났습니다.
현실과 구분하기 어려운 수준의 영상들
Veo 3가 생성한 영상들을 보면 그 완성도에 놀라게 됩니다. 자동차 쇼에서 사람들이 쇼핑하는 모습, 대학 교수가 Z세대 슬랭을 가르치는 수업, 길거리 인터뷰 장면 등 다양한 상황의 영상들이 마치 실제 촬영한 것처럼 자연스럽습니다.
특히 인상적인 것은 립싱크가 완벽한 노래 영상이나 스탠드업 코미디언의 공연 장면입니다. AI가 생성한 가상의 사람이 농담을 하고 노래를 부르는데, 입 모양과 소리가 완벽하게 일치합니다. 심지어 시트콤 에피소드를 만들어낼 수도 있는데, 웃음소리까지 포함해서 말이죠.
Veo 3가 생성한 길거리 인터뷰 장면 – 실제와 구분하기 어려운 수준입니다
기술의 한계와 의외의 결함들
하지만 Veo 3도 완벽하지는 않습니다. 앞서 언급한 ‘바삭바삭한 스파게티’ 사례가 대표적입니다. 이는 Veo 3의 실험적인 음향 효과 기능에서 발생한 오류로, 훈련 데이터에 바삭바삭 씹는 소리가 포함된 영상이 많아서 생긴 문제로 보입니다.
AI 모델은 패턴 매칭과 예측에 기반한 기계이기 때문에, 훈련 데이터에서 특정 개념이 과도하게 또는 부족하게 표현되면 이상한 결과를 낳을 수 있습니다. 이는 AI 기술의 근본적인 특성이자 한계를 보여주는 사례입니다.
또한 일부 영상에서는 사람들의 움직임이 목적성이 없어 보이거나, 대화 내용과 입술 움직임이 미묘하게 어긋나는 경우도 있습니다. 여전히 ‘언캐니 밸리(Uncanny Valley)’ 효과, 즉 거의 인간 같지만 미묘하게 다른 점 때문에 불편함을 느끼는 현상이 나타납니다.
가짜 뉴스와 딥페이크의 새로운 우려
Veo 3의 높은 완성도는 반가운 소식인 동시에 우려스러운 부분이기도 합니다. 한 사용자는 미국 국방장관 피트 헤그세스의 사망을 발표하는 뉴스 앵커 영상을 만들어냈습니다. 물론 그는 살아있지만, 영상은 믿을 수 없을 정도로 설득력 있어 보였습니다.
또 다른 테스터는 시애틀의 스페이스 니들에 화재가 발생했다는 가짜 뉴스 영상을 제작했고, 화산 폭발 장면까지 만들어냈습니다. 이런 영상들을 뉴스 앵커의 발표와 함께 편집한다면, 손쉽게 잘못된 정보를 퍼뜨릴 수 있을 것입니다.
다행히 구글은 명백한 가드레일을 설치해두었습니다. 바이든 대통령이 넘어지는 영상이나 대통령 암살을 발표하는 뉴스 앵커 영상은 생성할 수 없도록 차단되어 있습니다. 하지만 여전히 우려스러운 콘텐츠를 만들어낼 여지는 남아있습니다.
저품질 콘텐츠 양산 공장이 될 가능성
더욱 우려스러운 것은 Veo 3가 유튜브 키즈의 저품질 콘텐츠를 대량으로 만들어낼 수 있다는 점입니다. 유튜브 키즈에는 몬스터 트럭이 색칠된 물통에 빠지는 장면을 반복하는 등의 단순하고 자극적인 영상들이 넘쳐납니다. 이런 영상들은 유아들을 사로잡기 위해 만들어지는데, 내용은 빈약하지만 조회수를 올리는 데는 효과적입니다.
한 테스터는 10분 만에 이런 유형의 영상을 Veo 3로 만들어냈고, 심지어 경쾌한 배경음악까지 포함되어 있었습니다. 현재는 영상을 확장할 때 오디오가 제거되는 한계가 있지만, 구글이 이런 도구들을 빠르게 발전시키고 있다는 점을 고려하면 곧 장편 영상도 가능해질 것으로 보입니다.
Veo 3 활용 예시 – 다양한 콘텐츠 생성이 가능합니다
창작자들에게는 새로운 도구, 산업에는 변화의 바람
물론 부정적인 면만 있는 것은 아닙니다. 구글은 대런 아로노프스키와 협업하는 엘리자 맥닛과 같은 실제 영화제작자들이 만든 인상적인 AI 생성 영상들도 선보였습니다. 적절한 손에서 사용된다면 AI 비디오는 흥미로운 창작 도구가 될 수 있습니다.
독립 영화제작자나 소규모 크리에이터들에게는 이전에는 상상할 수 없었던 수준의 영상 제작이 가능해집니다. 큰 예산 없이도 높은 품질의 영상을 만들 수 있게 되면서, 창작의 진입장벽이 크게 낮아질 것입니다.
하지만 동시에 할리우드를 비롯한 기존 영상 산업에는 상당한 위협이 될 것으로 보입니다. 이미 한 사용자가 액션 영화의 모형을 만들어낸 사례에서 볼 수 있듯이, 전통적인 영화 제작 방식에 근본적인 변화가 일어날 가능성이 높습니다.
미래를 준비하는 지혜로운 접근
Veo 3의 등장은 우리가 새로운 기술 시대의 문턱에 서 있음을 보여줍니다. 이 기술이 가져올 변화는 피할 수 없는 현실이 되었습니다. 중요한 것은 이 기술을 어떻게 활용하고 규제할 것인가입니다.
창작자들에게는 새로운 가능성의 문이 열렸지만, 동시에 미디어 리터러시와 비판적 사고력이 그 어느 때보다 중요해졌습니다. 앞으로 우리가 보는 영상 중 어떤 것이 실제이고 어떤 것이 AI로 만들어진 것인지 구분하는 능력을 길러야 할 것입니다.
또한 기술 기업들과 정책 입안자들은 이런 강력한 도구가 악용되지 않도록 하는 방안을 마련해야 합니다. 구글이 이미 일부 가드레일을 설치한 것은 긍정적이지만, 더욱 포괄적이고 효과적인 규제 방안이 필요할 것입니다.
AI 비디오 생성 기술의 발전은 멈추지 않을 것입니다. 우리에게 필요한 것은 이 기술이 가져올 변화를 이해하고, 그에 맞춰 현명하게 대응하는 것입니다. Veo 3는 그 시작에 불과할 뿐입니다.
참고자료:
Comments