AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

26조 원 AI 검색 스타트업 Perplexity, 뉴욕타임스에 제소당하다

AI 검색 스타트업 Perplexity가 이번 주에만 두 건의 소송을 당했습니다. 목요일 Chicago Tribune에 이어, 금요일에는 뉴욕타임스(NYT)가 저작권 침해 소송을 제기했죠. 기업가치 200억 달러(약 26조 원)로 평가받는 이 스타트업은 현재 Encyclopedia Britannica, Reddit, Dow Jones, New York Post 등 여러 언론사와 동시다발적 법정 싸움을 벌이고 있습니다.

사진 출처: Reuters/Dado Ruvic

NYT가 공식 발표한 이번 소송의 핵심을 살펴봤습니다. NYT는 Perplexity가 수백만 건의 기사를 무단으로 복사·배포·표시하며 생성형 AI 제품을 운영한다고 주장합니다. 특히 페이월 뒤에 있는 유료 구독자 전용 콘텐츠까지 실시간으로 가져와 자사 고객에게 제공한다는 게 핵심 쟁점입니다.

출처: The Times Sues Perplexity AI – The New York Times Company

페이월을 뚫는 RAG 기술

NYT의 Graham James 대변인은 “RAG를 통해 Perplexity가 인터넷을 크롤링하고 우리 페이월 뒤 콘텐츠를 훔쳐서 고객들에게 실시간으로 전달한다”고 비판했습니다. RAG가 뭘까요?

RAG(Retrieval-Augmented Generation)는 AI가 답변하기 전에 먼저 외부 데이터베이스나 문서에서 관련 정보를 검색(retrieve)한 뒤, 그걸 바탕으로 답변을 생성(generate)하는 기술입니다. 일반 AI 모델이 학습 때 외운 지식만으로 답하는 것과 달리, RAG는 필요할 때마다 최신 정보를 찾아서 활용하죠.

문제는 Perplexity가 이 과정에서 페이월로 보호된 NYT의 유료 콘텐츠까지 크롤링한다는 점입니다. NYT는 “그 콘텐츠는 우리 유료 구독자만 볼 수 있어야 하는데, Perplexity가 실시간으로 가져가서 자사 고객에게 제공하고 있다”고 주장합니다.

더 나쁜 건 할루시네이션 문제입니다. NYT는 소송장에서 “Perplexity가 만들어낸 가짜 정보를 NYT가 작성한 것처럼 상표와 함께 표시했다”고 밝혔습니다. 사실이 아닌 내용을 권위 있는 언론사 이름으로 포장한 셈이죠.

“인덱싱이지 스크래핑이 아니다”

Perplexity의 Jesse Dwyer 커뮤니케이션 책임자는 “언론사들은 100년 전 라디오 시절부터 신기술이 나올 때마다 소송을 걸었지만, 한 번도 성공한 적이 없다”며 반박했습니다. 그는 “우리는 AI 모델 학습을 위해 데이터를 스크래핑하는 게 아니라, 웹페이지를 인덱싱하고 사실적 인용을 제공하는 것”이라고 주장합니다.

하지만 이 변명에는 허점이 있습니다. Reuters 보도에 따르면 여러 AI 기업들이 퍼블리셔가 설정한 스크래핑 차단 웹 표준을 우회하고 있다고 합니다. 실제로 Cloudflare는 Perplexity가 명시적으로 스크래핑을 차단한 웹사이트까지 크롤링했다는 사실을 확인했죠.

Perplexity는 작년 Publishers’ Program을 시작해 Gannett, TIME, Fortune, LA Times 같은 언론사들과 광고 수익을 공유하고 있습니다. 올해 8월에는 월 5달러 구독료의 80%를 참여 언론사에 배분하는 Comet Plus도 출시했고요. Getty Images와도 다년간 라이선스 계약을 맺었습니다.

그런데 왜 NYT는 이런 프로그램에 참여하지 않고 소송을 택했을까요?

소송은 협상 카드

흥미로운 점은 NYT가 AI 기업과의 협력을 완전히 거부하는 건 아니라는 겁니다. 올해 초 Amazon과 다년 계약을 맺어 Alexa 같은 AI 제품에 자사 콘텐츠를 라이선스했거든요. OpenAI, Microsoft와도 소송 중이지만, Associated Press, Axel Springer, Vox Media, The Atlantic 같은 다른 언론사들은 OpenAI와 계약을 맺었습니다.

패턴이 보이시나요? 언론사들은 소송을 협상의 지렛대로 활용하고 있습니다. AI 물결을 막을 수 없다면, 최대한 유리한 조건으로 라이선스 계약을 따내겠다는 전략이죠. NYT가 18개월 동안 Perplexity에 여러 차례 연락했지만 합의에 실패했고, 작년 10월 중단 요청서를 보낸 지 1년이 넘어서야 소송을 제기한 것도 이런 맥락입니다.

법원의 판단도 변수입니다. Anthropic은 해적판 책으로 모델을 학습시켰다는 이유로 15억 달러(약 2조 원) 합의금을 냈습니다. 법원은 “합법적으로 얻은 책은 공정 이용일 수 있지만, 해적판은 저작권 침해”라고 판결했죠. 이 판례가 Perplexity 케이스에 어떤 영향을 미칠지 주목됩니다.

AI 검색의 미래

Perplexity의 경우가 특별한 이유는 학습 단계가 아니라 서비스 운영 과정에서 실시간으로 콘텐츠를 가져온다는 점입니다. OpenAI가 과거 데이터로 모델을 학습시킨 것과는 다르죠. 페이월을 우회해 유료 콘텐츠를 무료로 제공한다면, 이건 단순한 저작권 문제를 넘어서 언론사의 비즈니스 모델 자체를 위협합니다.

NYT는 소송장에서 “Perplexity의 응답은 종종 원본 콘텐츠를 그대로 복제하거나 요약·축약한 것”이라며 “이는 NYT를 대체하는 상업 제품”이라고 주장했습니다. 독자들이 굳이 NYT에 구독료를 낼 이유가 없어진다는 얘기죠.

Perplexity의 Jesse Dwyer는 “전신으로 이야기하게 되지 않아서 다행”이라고 비꼬았지만, 실제로 언론사들은 과거 기술 변화에서 중요한 법적 승리를 거뒀습니다. 라디오, TV, 인터넷, 소셜미디어 시대마다 합의, 라이선스 체계, 법적 판례를 만들어냈거든요.

이번 소송의 결과는 AI 검색의 미래를 좌우할 수 있습니다. 과연 RAG 방식이 공정 이용으로 인정받을까요, 아니면 새로운 라이선스 체계가 필요할까요? 답은 법정에서 나올 것 같습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다