AI가 만든 얼굴을 눈으로 구별할 수 있다고 자신하시나요? 최신 연구에 따르면, 그 자신감은 이미 구식이 됐습니다.

호주 UNSW 시드니와 호주국립대학교(ANU) 연구팀이 AI 생성 얼굴 탐지 능력에 관한 연구를 영국심리학저널(British Journal of Psychology)에 발표했습니다. 결론은 냉정합니다. 일반인은 거의 구별하지 못하고, 얼굴 인식 전문가조차 겨우 약간 더 잘할 뿐이라는 것이죠.
출처: Too good to be true: Synthetic AI faces are more average than real faces and super‐recognizers know it – British Journal of Psychology
전문가도 57%, 일반인은 사실상 찍기 수준
연구팀은 125명을 모집해 실제 얼굴과 AI 생성 얼굴 100장씩을 보여주며 구별 테스트를 진행했습니다. 이 중 36명은 얼굴 인식 능력이 탁월한 “슈퍼 인식자(super-recognizer)”로, 표준 인식 테스트에서 상위 2% 안에 드는 사람들이었습니다.
결과는 충격적이었습니다. 일반 참가자들의 정답률은 50.7%, 사실상 동전 던지기 수준이었죠. 슈퍼 인식자들도 57.3%에 그쳤습니다. 평소 실제 인물 얼굴 식별 테스트에서 90% 이상을 기록하는 이들이 AI 얼굴 앞에서는 힘을 쓰지 못한 셈입니다.
더 흥미로운 점은 두 그룹 모두 자신의 탐지 능력을 실제보다 훨씬 높게 평가했다는 것입니다. 자신감과 실제 성능 사이의 괴리가 동일하게 나타났습니다.
결함이 없어서 오히려 들킨다
연구팀이 찾아낸 흥미로운 역설이 있습니다. 초기 AI 이미지는 눈이 어긋나거나 귀가 없는 것처럼 눈에 띄는 결함으로 탐지할 수 있었습니다. 하지만 최신 AI 얼굴에는 그런 결함이 거의 없습니다.
대신 새로운 단서가 등장했습니다. ANU의 Amy Dawel 교수는 AI 얼굴이 “뭔가 잘못되어 들키는 게 아니라, 너무 완벽해서 들킨다”고 설명합니다. AI 생성 얼굴은 지나치게 대칭적이고, 비율이 너무 완벽하며, 통계적으로 ‘평균’에 가깝습니다. 얼굴 특징이 너무 표준적이어서 오히려 실제 인간의 개성이 느껴지지 않는 것이죠.
연구팀은 이를 “하이퍼 애버리지(hyper-average)” 현상으로 명명했습니다. AI가 학습 데이터의 평균적인 특성에 수렴하는 방식으로 이미지를 생성하다 보니, 실제 인간의 얼굴보다 얼굴 공간의 중심에 더 가깝게 모여드는 겁니다. 딥러닝 분석으로도 이를 확인했는데, AI 얼굴은 실제 얼굴보다 얼굴 인식 신경망의 ‘평균 공간’ 중심에 밀집되어 있었습니다.
슈퍼 인식자들이 조금이나마 더 잘하는 이유
슈퍼 인식자들이 일반인보다 나은 성적을 낸 이유도 바로 이 하이퍼 애버리지 단서를 활용했기 때문입니다. 일반 참가자들의 판단은 얼굴의 대칭성이나 비율 같은 중심성 단서에 영향을 받지 않았지만, 슈퍼 인식자들은 이 단서를 무의식적으로 포착하고 있었습니다.
흥미롭게도 슈퍼 인식자들은 자신이 무엇을 보고 그런 판단을 내리는지 언어로 설명하지 못했습니다. 단서 사용이 의식적이지 않다는 의미입니다. 또한 8명의 슈퍼 인식자 판단을 집계했을 때 정확도가 크게 올라갔는데(집단 지성 효과), 같은 방법을 일반인 집단에 적용했을 때는 향상이 없었습니다.
탐지 능력의 시대적 격차
이 연구가 실질적으로 말하는 바는 분명합니다. 우리의 탐지 능력은 AI의 발전 속도를 따라가지 못하고 있다는 것입니다. 딥페이크 사기 피해가 2027년까지 연간 400억 달러에 달할 것으로 추산되는 상황에서, 눈으로 보는 것을 믿는다는 전제 자체가 흔들리고 있습니다.
연구팀은 슈퍼 인식자를 대상으로 하이퍼 애버리지 단서 탐지 훈련 가능성을 탐색하고, 이를 자동화 도구와 결합하는 방향으로 후속 연구를 진행할 예정입니다. 논문에는 얼굴 공간 이론의 수정 필요성, DNN 분석 결과, 집단 지성 실험 방법론 등 더 상세한 내용이 담겨 있습니다.
참고자료:

답글 남기기