AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI는 정말 ‘거대한 복사기’일까? – 대규모 언어 모델의 저작권 암기 실태 연구 분석

AI와 책들이 얽힌 모습을 표현한 이미지
출처: Unsplash

생성형 AI를 둘러싼 뜨거운 논쟁

ChatGPT와 같은 생성형 AI가 우리 일상에 깊숙이 들어온 지금, 한 가지 뜨거운 논쟁이 법정에서 벌어지고 있습니다. 바로 AI 모델이 저작권이 있는 콘텐츠를 어떻게 학습하고 사용하는가에 대한 문제입니다.

현재 미국에서만 수십 건의 관련 소송이 진행 중입니다. 작가들과 출판사들은 “AI 모델이 거대한 불법 복사기”라며 OpenAI, 메타(Meta) 등 AI 기업들을 상대로 소송을 제기했습니다. 반면 AI 기업들은 “모델은 단순히 언어의 통계적 패턴만 학습할 뿐”이라고 반박하고 있습니다.

과연 누구의 주장이 맞을까요? 최근 스탠포드 대학과 코넬 대학 연구진이 발표한 획기적인 연구가 이 논쟁에 중요한 실마리를 제공했습니다.

20만 권의 불법 복제 도서로 실험한 충격적인 연구

연구진은 ‘Books3’라는 데이터셋을 사용해 실험을 진행했습니다. Books3는 약 20만 권의 도서를 불법 복제한 파일들로 구성된 데이터셋으로, 메타의 LLaMA 모델을 비롯해 많은 AI 모델의 학습에 사용된 것으로 알려져 있습니다. 2023년 덴마크 저작권 보호 단체의 법적 요구로 현재는 삭제된 상태입니다.

출처: Unsplash

연구진은 13개의 오픈소스 AI 모델을 대상으로 혁신적인 ‘확률적 추출 기법’을 사용했습니다. 이는 특정 텍스트 조각이 모델에서 얼마나 높은 확률로 그대로 재생산되는지를 측정하는 방법입니다. 만약 특정 문장이 우연히 생성될 가능성보다 훨씬 높은 확률로 나온다면, 그것은 모델이 해당 텍스트를 ‘암기’했다는 증거가 됩니다.

놀라운 발견: 해리포터는 90% 이상 암기되었다

연구 결과는 충격적이었습니다. 메타의 LLaMA 3.1 70B 모델에서 다음과 같은 결과가 나왔습니다:

거의 완전히 암기된 작품들:

  • 해리포터와 마법사의 돌: 91% 이상
  • 조지 오웰의 『1984』: 67% 이상
  • 제임스 조이스의 『율리시스』: 66% 이상
  • 위대한 개츠비: 68% 이상

특히 해리포터의 경우, 연구진이 25토큰(약 20-30개 단어)의 문맥만 제공해도 이어지는 275토큰의 텍스트가 36.1%의 확률로 원작과 정확히 일치하게 생성되었습니다. 이는 우연의 일치로는 절대 설명할 수 없는 수준입니다.

예시: "They were careless people, Tom and Daisy – they smashed up things and creatures and then retreated"
→ 이어지는 긴 텍스트가 원작과 정확히 일치하여 생성됨 (확률: 36.1%)

복잡한 현실: 모든 책이 똑같이 암기되지는 않았다

하지만 이 연구의 진짜 가치는 단순한 이분법을 넘어선 복잡한 현실을 보여준 데 있습니다.

주요 발견 사항들:

  1. 대부분의 책은 거의 암기되지 않았습니다. 연구 대상 56권 중 상당수에서는 의미 있는 수준의 암기가 발견되지 않았습니다.
  2. 모델별로 암기 패턴이 크게 달랐습니다. 같은 책이라도 모델에 따라 암기 정도가 천차만별이었습니다. 예를 들어, Pythia 12B 모델은 해리포터를 거의 암기하지 못했지만, LLaMA 3.1 70B는 거의 전체를 암기했습니다.
  3. 인기도가 암기에 큰 영향을 미쳤습니다. 해리포터, 위대한 개츠비처럼 인터넷상에서 자주 인용되고 논의되는 작품들이 높은 암기율을 보였습니다.
  4. 저작권 표시나 출판사 정보 같은 중복도가 높은 텍스트들도 높은 암기율을 보였습니다.

책장과 디지털 요소가 결합된 이미지
출처: Unsplash

법정에 미칠 파장: 수십억 달러 손해배상과 모델 폐기 명령

이 연구 결과는 현재 진행 중인 저작권 소송들에 중대한 영향을 미칠 것으로 예상됩니다.

원고 측에게 유리한 점들:

  • AI 모델이 단순한 ‘통계적 패턴 학습기’가 아니라 실제로 저작물을 ‘복사’하고 있다는 과학적 증거
  • 모델 자체가 저작권 침해물일 수 있다는 새로운 법적 논리의 근거

피고 측에게 유리한 점들:

  • 대부분의 작품은 암기되지 않았다는 증거
  • 실제 사용자가 고의로 저작권 침해 콘텐츠를 생성하는 것은 매우 어렵다는 점

잠재적 파급효과:
연구진은 LLaMA 3.1 70B 모델이 지난달에만 10만 번 이상 다운로드되었다고 지적했습니다. 만약 법원이 모델 자체를 저작권 침해물로 판단한다면, 각 다운로드가 별도의 침해 행위가 될 수 있습니다. 미국 저작권법상 고의적 침해에 대한 법정손해배상액은 작품당 최대 15만 달러입니다.

연구진의 계산에 따르면, Books3의 3%만 침해로 인정되어도 약 10억 달러의 손해배상 위험이 있으며, 더 나아가 법원이 모델 배포 중단이나 파기 명령을 내릴 수도 있다고 경고했습니다.

기술적 시사점: AI 학습의 새로운 이해

이 연구는 AI 기술 자체에 대한 우리의 이해도 바꾸고 있습니다.

기존 인식: AI 모델은 단순히 언어의 패턴을 학습하여 새로운 텍스트를 생성한다.

새로운 이해: AI 모델은 실제로 특정 텍스트들을 ‘암기’하여 저장하고 있으며, 이는 모델의 매개변수(파라미터) 안에 인코딩되어 있다.

연구진은 “모델이 마법의 포털이 아니다. 암기된 콘텐츠를 생성할 수 있다는 것은 그 콘텐츠가 모델 내부 어딘가에 저장되어 있다는 뜻”이라고 설명했습니다.

향후 전망: 균형점을 찾는 과제

이 연구는 AI 저작권 논쟁이 단순한 흑백논리로 해결될 수 없음을 보여줍니다. 앞으로 다음과 같은 과제들이 남아있습니다:

기술적 과제:

  • 암기를 최소화하는 AI 학습 방법 개발
  • 저작권 침해 위험이 낮은 합성 데이터 활용 확대
  • 더 정교한 데이터 중복 제거 기술 개발

법적 과제:

  • 공정 이용(Fair Use) 원칙의 AI 시대 적용 방안 모색
  • 의도하지 않은 암기와 고의적 복제의 법적 구분
  • 혁신과 저작권 보호의 균형점 찾기

산업적 과제:

  • AI 기업들의 라이선스 기반 학습 데이터 확보
  • 창작자들에 대한 합리적 보상 체계 구축
  • 투명하고 책임감 있는 AI 개발 문화 정착

결론: 새로운 디지털 시대의 규칙 만들기

이 연구는 AI가 “거대한 복사기”도 “단순한 패턴 학습기”도 아닌, 그 사이 어딘가에 있는 복잡한 존재임을 보여줍니다. 일부 콘텐츠는 놀랄 만큼 정확하게 암기하지만, 대부분의 콘텐츠는 그렇지 않습니다.

중요한 것은 이러한 과학적 증거를 바탕으로 AI 시대에 맞는 새로운 규칙과 관행을 만들어가는 것입니다. 창작자의 권리를 보호하면서도 AI 기술의 발전을 저해하지 않는 균형점을 찾아야 합니다.

이는 단순히 기술이나 법의 문제가 아닙니다. 우리가 어떤 미래를 원하는지에 대한 사회적 선택의 문제입니다. AI와 인간이 공존하는 창조적 생태계를 만들어가는 지혜가 필요한 시점입니다.


참고자료

Comments