AI가 당신의 목소리를 몇 초만 듣고도 완벽하게 복제할 수 있다면, 그 능력을 다시 빼앗을 수 있을까요? 오프라 윈프리의 목소리로 만든 가짜 광고, 미국 고위 공직자를 사칭한 AI 음성 메시지처럼 딥페이크 악용 사례가 늘어나면서 AI에게 특정 정보를 “잊게” 만드는 기술이 주목받고 있습니다.

ACM(Association for Computing Machinery)의 Communications가 머신 언러닝(Machine Unlearning) 기술의 최신 연구 동향을 소개했습니다. 개인정보보호 규제와 AI 안전성 요구가 높아지는 상황에서, AI 모델이 이미 학습한 특정 데이터의 영향을 효율적으로 제거하는 방법들이 개발되고 있습니다.
출처: Teaching AI to Forget – Communications of the ACM
왜 AI는 “잊기”가 어려울까
가장 간단한 방법은 문제가 되는 데이터를 제외하고 모델을 처음부터 다시 학습시키는 것입니다. 하지만 하버드대 마틴 파벨치크(Martin Pawelczyk) 박사후연구원은 “비용이 너무 많이 들어서 사람들이 꺼리는 방법”이라고 설명합니다.
AI 모델은 학습한 정보를 파라미터(parameters)라는 수치값으로 저장합니다. 이 파라미터들은 훈련 데이터에서 발견한 패턴과 관계를 나타내죠. 문제는 대부분의 대규모 언어모델(LLM)이 블랙박스로 작동해 내부 파라미터에 접근할 수 없고, 접근 가능하더라도 수십억 개의 파라미터를 일일이 수정하려면 막대한 컴퓨팅 파워가 필요하다는 점입니다.
EU의 ‘잊혀질 권리(Right to be Forgotten)’ 규제처럼 개인이 자신의 정보 삭제를 요구할 수 있는 법적 근거가 마련되면서, 처음부터 재학습하지 않고도 특정 데이터 영향을 제거하는 효율적 방법이 필요해졌습니다.
프롬프트만으로 잊게 만들기: In-Context Unlearning
파벨치크 연구팀은 모델 파라미터를 건드리지 않는 새로운 접근법을 개발했습니다. ‘In-Context Unlearning’이라 불리는 이 방법은 신중하게 설계된 입력 프롬프트만 사용합니다.
작동 방식은 이렇습니다. 잊어야 할 사례에 대해 새로운 답변이나 레이블을 프롬프트로 제공하면, 모델이 해당 사례에 대한 기존 학습 반응의 확신도가 낮아집니다. 마치 처음부터 학습 데이터에 포함되지 않았던 것처럼 행동하게 되는 거죠. 분류 작업과 질의응답은 물론, LLM이 프롬프트를 해석하고 특정 정보를 제외한 답변을 생성하는 복잡한 작업에도 효과가 있었습니다.
하지만 한계도 명확합니다. 잊어야 할 개인정보가 프롬프트에 포함되기 때문에 공격자가 접근하거나 유출될 위험이 있고, 1만 개 이상의 대규모 삭제 요청은 처리하기 어렵습니다.
특정 목소리만 복제 못하게: 음성 합성 언러닝
성균관대 고종환 교수 연구팀은 AI 음성 합성에 특화된 언러닝 방법을 개발했습니다. 동의 없이 자신의 목소리가 복제되는 것을 원치 않는 사람들이 늘어나면서 시작된 연구입니다.
현재 텍스트를 음성으로 변환하는 AI 시스템들은 제로샷(zero-shot) 모델입니다. 학습 중에 듣지 못한 목소리도 짧은 샘플만 있으면 재현할 수 있죠. 이들은 훈련 데이터에서 음색, 스타일 같은 음성 속성을 인식하고 재현하는 법을 학습합니다. 따라서 언러닝 과제는 단순히 특정 음성을 잊는 게 아니라, 특정 화자를 복제하는 능력 자체를 억제하는 것입니다.
연구팀의 해결책은 잊혀지길 원하는 화자의 정체성을 숨기는 방식입니다. 해당 화자가 나타날 때마다 매번 새로운 무작위 음성을 생성하도록 모델을 훈련시킵니다. 카네기멜론대 방문연구원인 김진주 연구원은 “기존의 가드레일(guardrails) 필터 방식은 모델이 오픈소스거나 파라미터 구조를 이해하는 공격자가 우회할 수 있다”며 근본적 접근의 필요성을 강조했습니다.
메타의 음성 합성 시스템 Voicebox를 대상으로 테스트한 결과, 최대 10명의 화자 음성을 동시에 숨길 수 있었습니다. 하지만 더 많은 화자를 처리하려 하면 다른 음성 합성 품질이 저하되는 트레이드오프가 발생했습니다. 고종환 교수는 “언러닝이 너무 강하면 나머지 화자들의 음성 생성 능력을 잃고, 너무 약하면 특정 음성 재현을 막을 수 없다”고 설명합니다.
현재는 화자 수에 따라 며칠씩 걸리는 처리 속도도 개선이 필요한 부분입니다. 상용 음성 합성 시스템에 적용하려면 더 빠르고 확장 가능한 방법이 필요하죠.
이미지와 영상으로 확장
이 기술은 음성을 넘어 이미지나 영상으로도 확대될 수 있습니다. 프롬프트 설명만으로 영상과 이미지를 생성하는 생성형 AI가 확산되면서, 누드나 저작권 콘텐츠처럼 특정 시각 자료를 생성하지 못하게 막아야 할 필요성도 커지고 있습니다.
고종환 교수 연구팀은 “유해한 영상 콘텐츠 생성 능력을 선택적으로 지우는 언러닝 방법을 연구 중”이라고 밝혔습니다. 머신 언러닝은 이제 음성을 넘어 멀티모달 AI 안전성의 핵심 기술로 자리잡아가고 있습니다.
참고자료:

답글 남기기