Queen Mary University of London 연구팀이 PLoS One 저널에 발표한 연구 결과에 따르면, 최신 AI 음성 복제 기술이 만든 목소리를 실제 사람의 목소리와 구분할 수 있는 사람은 절반 정도에 불과했습니다. 이제 음성만으로 상대방이 누구인지 확인하던 시대는 끝났습니다.

핵심 포인트:
- 구분 성공률 단 4%p 차이: AI 음성 복제본 58%가 진짜로 오인되었고, 실제 인간 음성은 62%만 제대로 식별됨. 구분 능력이 거의 사라졌다는 의미
- 4분이면 충분: 단 4분의 녹음만으로 ElevenLabs 같은 상용 도구가 현실적인 음성 복제본을 생성. 전문 기술이나 고가 장비 없이 누구나 접근 가능
- 노인층 사기 피해 급증: 75세 이상 노인의 2/3가 전화 사기 시도를 경험. 음성 복제가 가족 사칭 범죄의 새로운 무기로 등장
실험실에서 확인된 충격적 결과
연구팀은 50명의 참가자에게 80개의 음성 샘플을 들려줬습니다. 절반은 실제 사람의 목소리, 나머지 절반은 AI가 만든 음성이었죠. 참가자들은 각 음성이 진짜인지 가짜인지 판단하고, 신뢰도와 지배력 같은 사회적 특성도 평가했습니다.
결과는 놀라웠어요. AI가 만든 음성 복제본의 58%가 진짜로 오인됐고, 실제 사람 목소리는 62%만 제대로 식별됐습니다. 통계적으로 거의 구분이 불가능한 수준이죠. 특히 흥미로운 건 AI 목소리가 실제 사람 목소리보다 더 지배적이고 신뢰할 만하다고 평가받았다는 점입니다.
연구를 이끈 Nadine Lavan 박사는 “상용 도구로 누구나 현실적인 목소리를 만들 수 있다는 게 가장 놀랍다”고 말했습니다. 고가의 장비나 전문 기술 없이도 말이죠.
어두운 면: 전화 사기의 새로운 무기
이 기술이 범죄자들의 손에 들어가면 상황은 심각해집니다. Portsmouth 대학 연구에 따르면 75세 이상 노인의 2/3 이상이 전화 사기 시도를 경험했고, 이 중 60%가 음성 통화로 이뤄졌습니다.
실제 사례도 있습니다. Jennifer DeStefano는 딸의 목소리로 위장한 전화를 받았어요. “엄마, 도와줘!”라는 다급한 목소리가 들렸죠. 다행히 그녀는 사기를 눈치챘지만, 다른 피해자는 그렇지 못했습니다. WFLA 뉴스는 2025년 한 여성이 울고 있는 딸의 목소리에 속아 15,000달러를 잃은 사건을 보도했습니다.
범죄자들은 소셜 미디어에 올라온 짧은 영상이나 음성 메시지만으로도 충분한 재료를 얻을 수 있습니다. 단 몇 분의 녹음이면 누군가의 목소리를 복제할 수 있으니까요.

유명인들도 피해를 입었습니다. Scarlett Johansson은 OpenAI가 자신의 목소리와 “기묘하게 유사한” 음성을 ChatGPT에 무단으로 사용했다고 항의했죠. 정치인과 언론인의 목소리를 복제한 딥페이크가 여론 조작과 허위 정보 확산에 악용되는 사례도 계속 보고되고 있습니다.
밝은 면: 기술이 열어주는 새로운 가능성
하지만 모든 게 어둡지만은 않습니다. 이 기술은 말을 할 수 없거나 음성 장애가 있는 사람들에게 새로운 길을 열어주고 있어요.
Stephen Hawking이 대표적인 예죠. 그는 음성 합성 기술로 자신의 생각을 전달했습니다. 오늘날 기술은 훨씬 더 발전했어요. 사용자는 자신의 원래 목소리를 재현하거나, 자신의 정체성을 반영하는 완전히 새로운 목소리를 디자인할 수 있습니다.
교육 분야에서도 긍정적인 변화가 나타나고 있습니다. 최근 연구에 따르면 AI 기반 오디오 학습이 학생들의 동기와 읽기 참여도를 높였다고 해요. 특히 ADHD 같은 신경다양성을 가진 학생들에게 효과적이었습니다.
더 흥미로운 건 다국어 음성 복제입니다. 자신의 목소리를 여러 언어로 복제할 수 있다면 언어 장벽을 넘어 자신의 음성 정체성을 유지하면서 전 세계와 소통할 수 있습니다.

신뢰의 재정의가 필요한 시점
이 연구가 던지는 가장 큰 질문은 “이제 우리는 무엇을 믿어야 하는가”입니다. 목소리만으로는 더 이상 상대방의 신원을 확신할 수 없게 됐어요.
Lavan 박사는 AI 개발자들에게 더 강력한 안전장치를 구현할 책임이 있다고 강조합니다. “기술을 만드는 기업들은 윤리학자, 정책 입안자와 대화해야 합니다. 목소리의 소유권, 동의 문제, 그리고 끊임없이 변화하는 환경 속에서 그 동의가 어디까지 유효한지를 고민해야 하죠.”
연구진은 앞으로 AI가 생성한 목소리라는 사실을 알고 있을 때와 모를 때 사람들의 반응이 어떻게 달라지는지 탐구할 계획입니다. 또 명백하게 비인간적이지만 매력적으로 들리는 AI 목소리에 대한 사람들의 반응도 연구할 예정이에요.
개인적으로는 전화 통화 시 “비밀번호”나 “가족만 아는 질문”을 미리 정해두는 게 좋습니다. 목소리만으로는 진위를 판단할 수 없으니까요. 기업들은 음성 인증만으로는 부족하다는 걸 인정하고 다중 인증 시스템을 강화해야 합니다.
기술은 계속 발전할 겁니다. 중요한 건 이 기술을 어떻게 사용하고 어떻게 규제할 것인가입니다. 음성 복제 기술은 양날의 검이에요. 장애인에게는 새로운 소통 수단이 되지만, 범죄자에게는 더 정교한 사기 도구가 됩니다.
참고자료:
답글 남기기