핵심 요약: 딥페이크 기술 개발사 CEO가 직접 밝힌 현재 딥페이크의 발전 단계와 위험성. 기술적 해결책의 한계를 인정하고 미디어 리터러시의 중요성을 강조하며, 사회가 준비되지 않은 상황에서 기술만 앞서가는 현실을 경고하고 있습니다.

소셜미디어를 스크롤하다가 “잠깐, 이게 진짜야?”라고 생각해본 적이 있으신가요? 이제 그 의심이 틀리지 않을 가능성이 높습니다. 딥페이크가 우리 주변 곳곳에 스며들고 있고, 그 수준은 점점 더 정교해지고 있기 때문입니다.
최근 The Verge의 Decoder 팟캐스트에서 흥미로운 인터뷰가 공개되었습니다. AI 영상 생성 회사 Captions의 CEO 가우라브 미스라(Gaurav Misra)와의 대화에서, 딥페이크 기술 개발자 스스로가 자신들이 만든 기술에 대해 깊은 우려를 표명한 것입니다. 이들이 발표한 “We Build Synthetic Humans. Here’s What’s Keeping Us Up at Night(우리는 가상 인간을 만듭니다. 밤잠을 설치게 하는 것들)”이라는 제목의 블로그 포스트는 딥페이크 기술의 현주소와 우려점들을 솔직하게 드러내고 있습니다.
딥페이크 기술의 4단계 진화
Captions에서 제시한 분류에 따르면, 딥페이크 기술은 크게 4세대로 나눌 수 있습니다.
1세대: 실제 영상에 얼굴 합성
첫 번째 단계는 실제 촬영된 영상에 생성된 얼굴을 덧씌우는 방식입니다. 몸짓이나 목소리는 실제 배우가 연기하고, AI가 얼굴만 바꾸는 것이죠. 대부분의 영상이 실제이기 때문에 매우 자연스럽게 보입니다. 유명한 톰 크루즈 딥페이크가 이런 방식으로 만들어졌습니다.
2세대: 실제 영상에 립싱크 적용
두 번째 단계에서는 기존 영상의 입술 움직임만 바꿔서 전혀 다른 말을 하게 만듭니다. 이는 “실존 인물이 실제로 하지 않은 말을 하게 만드는” 첫 번째 기술이었습니다. 현재 65-75개의 업체가 이런 립싱크 도구를 제공하고 있으며, 대부분 콘텐츠 검열이 미흡한 상태입니다.

3세대: 완전한 영상 생성
세 번째 단계는 사람, 배경, 심지어 카메라 움직임까지 모든 것을 처음부터 생성하는 단계입니다. 더 이상 원본 영상이 필요하지 않죠. 현재 대부분의 모델이 4-12초 정도의 짧은 클립만 생성할 수 있어, 이런 제한 시간이 딥페이크를 구별하는 단서가 되기도 합니다.
4세대: 장편 다중 인물 영상
아직 완전히 도달하지 않았지만 곧 실현될 4세대는 시간 제약 없이 여러 명이 등장하는 복잡한 상황의 영상을 만들 수 있습니다. 실존 인물을 완전히 가상의 상황에 배치하는 것도 가능해집니다.
현실이 된 위험들
이론적 위험이 아닌 실제 피해 사례들이 속속 등장하고 있습니다. NewsGuard의 최근 보고서에 따르면, AI로 생성된 뉴스 사이트만 1,271개가 확인되었으며, 이들은 인간의 감독 없이 허위정보를 대량 생산하고 있습니다.
특히 우려스러운 것은 정치적 허위정보입니다. 최근 미국 대선 기간 중 생성된 가짜 영상들, 이란에서 유포된 조작 영상들이 실제로 여론에 영향을 미쳤습니다. 한국에서도 선거 기간마다 이런 우려가 커지고 있는 상황입니다.
탐지 기술의 한계
많은 사람들이 기술적 해결책에 의존하려 하지만, 현실은 그리 간단하지 않습니다. Captions의 보고서는 현재의 탐지 기술들이 가진 근본적 한계를 지적합니다.
SynthID 같은 워터마킹 시스템도 압축 과정에서 쉽게 손상되거나 제거될 수 있습니다. 더 큰 문제는 대부분의 사람들이 가짜 영상을 찾으려 하지 않는다는 점입니다. 심지어 가짜 영상이 존재한다는 사실조차 모르는 경우가 많습니다.

미디어 리터러시가 답이다
Captions는 기술적 해결책보다 새로운 형태의 미디어 리터러시가 더 중요하다고 강조합니다. 우리가 신문 헤드라인을 대하듯이 영상도 비판적으로 바라보는 문화가 필요하다는 것입니다.
MIT의 연구에 따르면, 미디어 리터러시 교육은 실제로 사람들의 허위정보 저항력을 높이는 데 효과적입니다. 영국 정부도 최근 딥페이크와 미디어 리터러시에 관한 보고서에서 시민, 콘텐츠 제공업체, 정부 간의 책임 분담이 필요하다고 밝혔습니다.
핵심은 출처의 중요성을 인식하는 것입니다. 어떤 영상을 보든 “이것이 어디서 왔는가?”, “누가 만들었는가?”, “왜 만들어졌는가?”를 먼저 생각하는 습관을 기르는 것이 중요합니다.
개발자들의 양심적 고민
흥미롭게도 딥페이크 기술을 직접 개발하는 회사에서 이런 우려를 공개적으로 표명한 것은 의미가 깊습니다. Captions는 자신들의 기술이 스토리텔링을 더 접근 가능하게 만들고, 의사소통을 개선하며, 심지어 사랑에 빠지게 도와주는 긍정적 측면이 있다고 믿습니다.
하지만 동시에 “누구나 무엇이든 말할 수 있게 하는” 기술의 위험성도 인정합니다. 이들이 강조하는 것은 올바른 구조, 문화, 그리고 경계선이 있다면 합성 영상 기술이 더 포용적인 소통 방식을 만들 수 있다는 점입니다.
지금이 가장 덜 믿을 만한 시점
가장 충격적인 사실은 현재의 딥페이크가 “가장 믿을 수 없는 상태”라는 점입니다. 앞으로 기술은 더욱 정교해질 것이고, 구별하기는 더욱 어려워질 것입니다. 하지만 사회의 준비는 기술 발전 속도를 따라가지 못하고 있습니다.
이는 단순히 기술적 문제가 아닌 문화적 도전입니다. 우리는 영상을 “증거”나 “증명”으로 받아들이는 오랜 습관을 바꿔야 하는 전환점에 서 있습니다.
딥페이크 기술 자체를 막을 수는 없습니다. 중요한 것은 이 기술과 함께 살아가는 지혜를 기르는 것입니다. 의심하되 두려워하지 말고, 비판적으로 사고하되 기술의 긍정적 가능성도 놓치지 않는 균형 감각이 필요한 시점입니다.
참고자료:
Comments