AI 이미지 생성 모델이 인터넷의 모든 이미지를 마음대로 긁어가 학습에 사용한다면, 예술가들은 어떻게 자신의 작품을 지킬 수 있을까요? “크롤링 금지” 표시를 무시하는 AI 기업들에게 예술가들이 할 수 있는 일은 거의 없어 보입니다. 시카고 대학교 연구팀이 개발한 Nightshade는 이런 상황을 뒤집는 도구입니다. AI 모델이 무단으로 가져간 이미지를 학습하면 오히려 모델이 망가지도록 만드는 거죠.

시카고 대학교 연구팀이 개발한 Nightshade는 이미지를 AI 학습에 부적합한 ‘독(poison)’ 샘플로 변환하는 도구입니다. IEEE Security and Privacy 2024에 발표된 논문에서 연구팀은 100장 미만의 독 이미지만으로도 Stable Diffusion 같은 대형 모델의 특정 프롬프트를 망가뜨릴 수 있다는 것을 보여줬습니다. 예술가들이 집단적으로 사용할 수 있는 ‘공격형 방어 도구’인 셈이죠.
출처: What Is Nightshade? – Nightshade Project, University of Chicago
사람 눈에는 똑같지만, AI 눈에는 완전히 다르게
Nightshade의 핵심은 인간의 시각과 AI의 인식 사이의 간극을 이용합니다. 연구팀은 다목적 최적화 기법을 써서 원본 이미지의 시각적 변화를 최소화하면서 AI 모델이 인식하는 특징 표현을 극적으로 왜곡하는 방식을 개발했습니다.
구체적으로 어떻게 작동할까요? 예를 들어 초원에 있는 소 사진에 Nightshade를 적용하면, 사람 눈에는 여전히 소가 풀밭에 서 있는 모습으로 보입니다. 하지만 AI 모델은 그 이미지를 잔디 위에 놓인 가죽 핸드백으로 인식하죠. 이렇게 처리된 소 이미지를 충분히 학습한 모델은 점점 소에게 ‘갈색 가죽 손잡이’와 ‘지퍼가 달린 매끈한 주머니’가 있다고 확신하게 됩니다.
이 효과는 놀랍도록 견고합니다. 이미지를 자르거나, 크기를 조정하거나, 압축하거나, 심지어 모니터에 띄운 이미지를 사진으로 찍어도 독 효과는 그대로 남아있습니다. 워터마크나 스테가노그래피(숨은 메시지) 같은 취약한 방식이 아니기 때문이죠.
100장으로 모델을 무력화하다
논문에서 가장 충격적인 발견은 Nightshade의 효율성입니다. 연구팀은 Stable Diffusion SDXL 같은 대규모 모델도 100장 미만의 독 샘플로 특정 프롬프트에 대한 반응을 망가뜨릴 수 있다는 것을 입증했습니다. 수억 장의 이미지로 학습된 모델을 고작 100장으로 무력화할 수 있다는 건 상당히 놀라운 결과입니다.
더 흥미로운 점은 독 효과가 관련 개념으로 ‘번진다(bleed through)’는 겁니다. 소에 대한 공격이 말이나 양 같은 관련 동물에도 영향을 미치고, 여러 개의 Nightshade 공격을 조합하면 모델의 일반적인 특징 추출 능력 자체를 불안정하게 만들 수 있습니다. 적당한 수의 Nightshade 공격이 축적되면 모델이 의미 있는 이미지를 생성하는 능력 자체가 사실상 무력화될 수 있다는 거죠.
방패와 창: Glaze와 Nightshade
Nightshade는 같은 연구팀이 앞서 개발한 Glaze와 함께 사용할 수 있습니다. 두 도구의 역할은 명확히 다릅니다. Glaze는 개별 예술가가 자신의 작품 스타일이 AI에게 모방당하는 것을 막는 ‘방어 도구’입니다. 모든 작품에 적용해서 자기 자신을 보호하는 거죠.
반면 Nightshade는 예술가들이 집단적으로 사용할 수 있는 ‘공격 도구’입니다. 무단으로 이미지를 긁어가는 모델을 방해해서 모든 예술가를 보호하는 역할을 합니다. 연구팀은 이상적으로는 예술가들이 온라인에 올리는 작품에 Glaze와 Nightshade를 모두 적용하는 것을 권장합니다.
힘의 균형을 바꾸다
Nightshade의 목표는 AI 모델을 완전히 파괴하는 게 아닙니다. 대신 무단으로 데이터를 긁어가는 행위에 ‘점진적인 비용’을 부과하는 겁니다. 연구팀은 이를 통해 AI 기업들이 창작자에게 제대로 라이선스 비용을 지불하고 이미지를 사용하는 게 더 합리적인 선택이 되도록 만들고자 합니다.
물론 한계도 있습니다. 평평한 색상과 매끄러운 배경을 가진 작품에서는 Nightshade의 변화가 더 눈에 띌 수 있습니다. 또한 어떤 보안 공격이나 방어와 마찬가지로 Nightshade도 영원히 효과적일 수는 없습니다. 하지만 연구팀은 공격 기법은 방어 기법보다 진화하기 쉽다고 지적합니다.
Nightshade는 이미 예술가들 사이에서 실제로 사용되고 있습니다. 여러 아티스트들이 자신의 작품에 Nightshade를 적용한 샘플을 공개했고, 연구팀은 도구를 오픈소스로 공개했습니다. “거부 의사 표시”만으로는 무력했던 예술가들에게 실질적인 대응 수단이 생긴 셈입니다. AI 시대의 저작권 전쟁에서 힘의 균형이 조금은 바뀔 수 있을지 지켜볼 일입니다.
참고자료:

답글 남기기