최근 AI 감시 단체에서 발표한 충격적인 연구 결과가 AI 업계를 뒤흔들고 있습니다. OpenAI가 저작권이 있는 유료 콘텐츠를 무단으로 사용해 최신 AI 모델을 학습시켰다는 의혹이 제기된 것입니다. 이는 향후 AI 기술 발전과 저작권법 적용에 큰 파장을 일으킬 전망입니다.
연구 결과로 드러난 충격적 사실
AI Disclosures Project가 발표한 최근 연구에 따르면, OpenAI의 GPT-4o 모델이 O’Reilly Media의 유료 도서 콘텐츠를 학습 데이터로 사용했을 가능성이 높다고 합니다. 이 연구는 TechCrunch가 4월 1일 보도한 내용으로, 미디어 거물 Tim O’Reilly와 경제학자 Ilan Strauss가 2024년 공동 설립한 비영리 단체에서 진행되었습니다.

이미지 출처: Jakub Porzycki/NurPhoto / Getty Images
연구팀은 “멤버십 추론 공격(membership inference attack)”이라 불리는 ‘DE-COP’ 방법을 사용했습니다. 이 방법은 AI 모델이 실제 사람이 작성한 텍스트와 같은 텍스트를 AI가 재구성한 버전을 구별할 수 있는지 테스트합니다. 모델이 이를 신뢰성 있게 구별할 수 있다면, 이는 모델이 학습 데이터를 통해 해당 텍스트에 대한 사전 지식을 가지고 있다는 것을 암시합니다.
연구 결과에서 밝혀진 핵심 사항은 다음과 같습니다:
- GPT-4o는 유료 O’Reilly 도서 콘텐츠에 대해 82%의 높은 인식률(AUROC 점수)을 보였습니다.
- 반면 이전 모델인 GPT-3.5 Turbo는 공개적으로 접근 가능한 O’Reilly 콘텐츠에 대해 상대적으로 더 높은 인식률을 보였습니다.
- GPT-4o Mini는 유료 또는 공개 콘텐츠 모두에 대해 낮은 인식률(약 50%)을 나타냈습니다.
AI 학습 데이터와 저작권 문제의 딜레마
AI 모델은 본질적으로 복잡한 예측 엔진입니다. 책, 영화, TV 프로그램 등 방대한 데이터를 학습하여 패턴을 인식하고 단순한 프롬프트에서 확장하는 방법을 배웁니다. 하지만 이러한 학습 과정에서 저작권 문제가 발생합니다.

이미지 출처: Unsplash
AI 기업들이 직면한 큰 과제 중 하나는 고품질 학습 데이터의 확보입니다. 실제로 OpenAI는 최근 모델의 출력을 미세 조정하기 위해 저널리스트를 고용하는 등 더 나은 품질의 학습 데이터를 찾고 있다는 사실이 알려져 있습니다. 이는 AI 업계 전반에 걸친 추세로, 많은 기업들이 과학이나 물리학과 같은 분야의 전문가를 고용하여 그들의 지식을 AI 시스템에 효과적으로 주입하고 있습니다.
물론 OpenAI는 일부 학습 데이터에 대해 비용을 지불하고 있습니다. 뉴스 발행사, 소셜 네트워크, 스톡 미디어 라이브러리 등과 라이센싱 계약을 맺고 있으며, 저작권 소유자가 학습 목적으로 사용하지 않기를 원하는 콘텐츠를 표시할 수 있는 옵트아웃 메커니즘(비록 완벽하지는 않지만)도 제공하고 있습니다.
데이터 사용과 AI 윤리의 경계
AI 모델이 학습을 위해 저작권이 있는 자료를 무단으로 사용하는 것은 콘텐츠 창작자들에게 심각한 피해를 줄 수 있습니다. AI Disclosures Project는 보상 없는 데이터 사용이 인터넷 콘텐츠의 질을 저하시키고 전문적인 콘텐츠 제작을 위한 수익을 감소시킬 수 있다고 지적합니다.
현재 AI 저작권법은 아직 명확하지 않지만, AI 기업들이 데이터 제공자로부터 동의를 얻는 것이 콘텐츠 품질 향상에 도움이 될 수 있습니다. 유럽연합(EU)의 AI 법안과 같은 규제는 AI 개발 관행과 지적 재산권에 관한 명확한 지침을 제시하고자 합니다.
학습 데이터 시장의 등장
흥미롭게도, 일부 기업들이 불법적으로 데이터를 획득할 수 있음에도 불구하고, 라이센싱 계약을 통해 AI 모델 개발자들이 비용을 지불하는 새로운 시장이 등장하고 있습니다. Defined.ai와 같은 회사는 데이터 제공자의 허가를 얻고 개인 식별 정보를 제거하여 훈련 데이터를 얻는 데 도움을 줍니다.
이러한 접근 방식은 윤리적인 AI 훈련 관행으로의 추세를 반영하며, 적절한 라이센싱은 콘텐츠 창작자를 지원합니다. 그러나 현재 저작권법이 AI 저작권 문제에 어떻게 적용되는지 법원이 명확히 해야 할 필요가 있습니다.
글로벌 AI 업계의 향후 과제
AI는 빠르게 진화하고 있으며, 연구자들은 이를 완전히 이해하기 위해 계속해서 연구를 진행하고 있습니다. 거대 기술 기업들은 데이터 처리와 개인정보 보호를 개선할 가능성이 높으며, 투명성은 사람들이 생성형 AI를 더 신뢰하고 더 나은 인공지능을 만드는 데 도움이 될 것입니다.
오픈소스 프로젝트는 AI 훈련에 관한 문제가 적은 혁신을 창출할 수 있는 완전한 접근성을 제공할 수 있습니다. Deepseek와 같은 오픈소스 모델은 종종 더 투명한 데이터 사용 정책을 가지고 있습니다.
향후 전망과 우리의 접근 방식
이 연구는 기술 기업, 콘텐츠 창작자, 사용자 모두가 주목해야 할 문제를 강조합니다. AI의 부상과 함께 윤리적 고려사항과 공정성에 관한 지속적인 대화가 필요합니다.
법원이 AI 모델 훈련에 관한 공정 사용을 해석할 때 이러한 문제를 이해하는 것이 중요하며, 저작권 소유자는 특정 저작권 침해에 관한 증거를 제공해야 할 것입니다. 현재 진행 중인 소송의 판결은 데이터 획득 및 사용에 관한 기술 규칙에 영향을 미칠 것입니다.
AI 도구가 계속 발전함에 따라 데이터 사용과 저작권에 대한 우리의 접근 방식도 함께 발전해야 합니다. 열린 논의, 명확한 지침, 법적 명확성은 시장의 혁신을 강력하게 유지하는 데 도움이 될 것입니다.
AI의 미래는 기술적 가능성뿐만 아니라 윤리적, 법적 경계를 어떻게 설정하느냐에 달려 있습니다. 이 연구 결과는 우리가 이러한 경계를 정의하는 과정에서 중요한 의문을 제기합니다.
Comments