2021년 GitHub Copilot이 출시됐을 때, 오픈소스 커뮤니티는 발칵 뒤집혔습니다. GPL 같은 카피레프트 라이선스 코드로 학습한 AI 모델도 GPL을 따라야 하는 거 아니냐는 주장이 쏟아졌죠. 그런데 2025년 지금, 그 논쟁은 어디로 갔을까요? 사라진 걸까요?
아닙니다. 법정에서는 여전히 치열한 공방이 진행 중이고, 최근 독일 법원은 “AI 모델 내부의 기억도 저작물 복제”라는 충격적인 판결을 내놨습니다.

일본 오픈소스 전문가 Shujiro Sado가 “GPL이 AI 모델에 전파되는가”라는 논쟁의 2025년 현황을 정리한 글을 발표했습니다. 진행 중인 두 가지 주요 소송과 찬반 논리, 그리고 오픈소스 커뮤니티의 입장을 종합적으로 다루고 있습니다.
출처: The Current State of the Theory that GPL Propagates to AI Models Trained on GPL Code – Shujiro Sado
법정에서 벌어지는 두 가지 싸움
Copilot 집단소송: 살아남은 라이선스 위반 주장
2022년 말 익명 개발자들이 GitHub, Microsoft, OpenAI를 상대로 소송을 제기했습니다. Copilot이 오픈소스 코드를 학습해놓고 출력할 때는 저작자 표시도 안 하고, GPL 코드를 마구 뱉어낸다는 게 골자였죠.
캘리포니아 북부지구 연방법원은 대부분의 청구를 기각했지만, “오픈소스 라이선스 위반” 주장만큼은 살아남았습니다. 금전적 손해배상은 인정하지 않았지만, 법원은 “Copilot이 라이선스 표시 없이 코드를 재현하는 행위를 금지하라”는 금지명령 청구에 대해서는 계속 심리할 여지를 남겼어요. 즉, 학습 데이터의 라이선스 조건을 무시하면 불법일 수 있다는 가능성을 열어둔 겁니다.
중요한 건, 이 판결이 “모델 자체를 GPL로 공개하라”고 직접 요구한 건 아니라는 점입니다. 하지만 학습 과정에서 라이선스를 무시하면 법적 책임을 질 수 있다는 신호를 보낸 거죠.
GEMA vs OpenAI: 모델 내부의 “기억”도 복제다
더 충격적인 건 독일에서 벌어진 일입니다. 2025년 11월, 뮌헨 지방법원은 독일 음악 저작권 단체 GEMA가 OpenAI를 상대로 제기한 소송에서 획기적인 판결을 내렸습니다.
ChatGPT가 유명한 독일 노래 가사 9곡을 거의 그대로 출력한 사건이었는데, 법원은 “모델이 가사를 기억하고 있는 상태 자체가 저작물 복제”라고 판단했습니다. EU 저작권 지침을 인용하며, “복제는 어떤 형태든 상관없고, 인간이 직접 인식할 수 있을 필요도 없다”고 명시했죠. 즉, 가사가 모델의 파라미터 안에 확률적 가중치로 인코딩되어 있어도 복제물이라는 겁니다.
법원은 “간단한 프롬프트만으로 원작과 거의 동일한 출력이 나온다면, 모델 내부에 이미 저작물의 재현물이 존재한다”고 봤습니다. 이 논리가 확정된다면, GPL 코드 조각을 기억하고 있는 모델도 그 코드의 복제물로 간주될 수 있는 길이 열리는 거죠.
다만 이 판결은 1심이고 OpenAI가 항소한 상태입니다. 또한 짧은 가사를 완전히 재현한 극단적 사례라는 점도 유의해야 합니다.
GPL 전파론을 반대하는 목소리들
그렇다면 모두가 “당연히 GPL이 전파되어야 한다”고 생각할까요? 아닙니다. 법률 전문가와 엔지니어들은 여러 층위에서 반론을 제기합니다.
저작권법 관점: AI 모델은 학습 데이터의 “2차 저작물”이 아니라는 주장입니다. 모델 가중치는 텍스트와 코드를 통계적으로 추상화한 것이지, 원본 코드의 창작적 표현을 직접 담고 있지 않다는 거죠. 영국 고등법원은 Getty vs Stability AI 사건에서 “Stable Diffusion 모델 자체는 학습 이미지의 침해 복제물이 아니다”라고 판시했습니다.
GPL 조문 관점: GPL이 요구하는 “선호하는 수정 형태”를 AI 모델에 어떻게 적용할 것인가도 문제입니다. 모델 가중치는 인간이 읽고 수정하기 어려운데, 이게 “소스코드”일까요? 전체 학습 데이터를 공개해야 할까요? GPL 조문 자체가 AI 모델을 상정하고 만들어진 게 아니라서 억지로 끼워맞추면 모순이 생깁니다.
기술적 관점: 대규모 언어모델은 기본적으로 거대한 통계적 경향을 담고 있을 뿐, 데이터베이스처럼 원본 코드를 그대로 저장하지 않습니다. 특정 출력이 학습 데이터와 일치하는 경우는 전체에서 극히 일부일 뿐이죠. 일부 조각의 존재를 근거로 전체를 복제물로 보는 건 과도한 일반화라는 비판입니다.
실무적 관점: 만약 100만 개의 저장소로 모델을 학습했다면, 그 안의 GPL, MIT, Apache 등 모든 라이선스가 모델에 전파된다고 봐야 할까요? 서로 충돌하는 조건들을 어떻게 모두 만족시킬까요? 현실적으로 불가능합니다. 결국 기업들은 GPL 코드를 학습 데이터에서 아예 배제하는 방향으로 갈 텐데, 이게 과연 오픈소스의 가치를 높이는 길일까요?
오픈소스 커뮤니티는 어떻게 생각할까
흥미롭게도 오픈소스를 대표하는 두 조직의 입장이 미묘하게 다릅니다.
OSI(Open Source Initiative)는 2024년 “오픈소스 AI 정의”를 발표하며 현실적 타협점을 모색했습니다. 학습 데이터 전체 공개는 의무화하지 않되, 데이터의 출처와 성격에 대한 상세 정보는 제공하라는 식이죠. 모델 가중치와 학습 코드는 OSI 승인 라이선스로 공개하되, 학습 데이터는 정보 수준에서 투명성을 확보하자는 겁니다.
반면 FSF(Free Software Foundation)는 더 원칙론적입니다. 2021년 FSF 유럽은 “AI가 자유롭기 위해서는 학습 코드와 학습 데이터 모두 자유 소프트웨어 라이선스로 공개되어야 한다”고 선언했습니다. 하지만 FSF도 현재 GPL만으로는 AI 영역의 자유를 보장할 수 없다고 보고, 2024년 “머신러닝 애플리케이션을 위한 자유 조건” 제정 작업을 시작했습니다.
Software Freedom Conservancy는 GitHub 반대 캠페인을 벌이며 Copilot 소송에도 관여했지만, 동시에 “커뮤니티 원칙에서 벗어난 해석이 들어올 위험”을 경계하고 있습니다. 법정 싸움의 결과가 오히려 커뮤니티에 불리하게 나올 수 있다는 우려죠.
결국 어떻게 될까
2025년 현재, GPL이 AI 모델에 전파된다는 이론은 “완전히 부정되지도, 확정되지도 않은 상태”입니다.
Copilot 소송과 GEMA 판결은 모델 내부에 학습 데이터가 남아있다면 법적 책임을 물을 수 있다는 가능성을 열었습니다. 하지만 “그러므로 모델 전체를 GPL로 공개하라”는 결론까지 나아간 판례는 아직 없습니다.
앞으로의 흐름은 각국의 정책과 커뮤니티 합의에 달려 있습니다. 유럽에서 권리자 단체의 압력이 강해지면 라이선스 준수를 포함한 가이드라인이 나올 수 있고, 커뮤니티 내부에서 합의가 형성되면 새로운 라이선스가 등장할 수도 있습니다.
중요한 건 “소프트웨어 자유”라는 철학을 AI 시대에 어떻게 구현할 것인가 하는 본질적 질문입니다. 카피레프트를 기계적으로 AI에 적용하기보다는, AI의 기술적 특성과 산업 구조를 고려해 자유를 최대화하는 방법을 찾아야 합니다. 대규모 AI 모델의 오픈 공개, 데이터셋 정제 방법, 라이선스 표시 자동화 같은 실용적 해법들이 이미 모색되고 있고, 이런 자발적 노력을 법적 틀로 뒷받침하는 게 현실적일 겁니다.
GPL 전파론은 추구해야 할 이상일까요, 피해야 할 악몽일까요? 답은 아직 나오지 않았습니다. 하지만 2025년 지금, 이 논쟁은 사라진 게 아니라 법정과 커뮤니티에서 여전히 진화하고 있습니다.
참고자료:

답글 남기기