Reddit이 AI 검색 스타트업 Perplexity와 3개 스크래핑 업체를 상대로 소송을 제기했습니다. 200억 달러(약 27조 원) 기업가치를 자랑하는 Perplexity가 중단 경고를 무시하고 오히려 Reddit 데이터 활용을 40배나 늘렸다는 게 핵심입니다. 이번 사건은 AI 기업들의 데이터 확보 경쟁이 만들어낸 ‘데이터 세탁 경제’의 실체를 드러냅니다.

핵심 포인트:
- 중단 경고 후 오히려 40배 증가: Reddit이 2024년 5월 중단 경고를 보냈지만 Perplexity의 Reddit 인용은 오히려 급증. robots.txt 존중 약속은 지켜지지 않았음
- Google 우회 전략 적발: Google 전용 테스트 포스트를 Perplexity가 몇 시간 만에 인용하며 결정적 증거 확보. 직접 스크래핑 대신 Google 검색 결과를 통한 우회 접근 방식 사용
- 데이터 세탁 생태계: SerpApi, Oxylabs, AWMProxy 같은 중간 업체들이 신원을 숨기고 데이터를 훔쳐 AI 기업에 판매하는 ‘산업적 규모의 불법 경제’ 형성
무슨 일이 있었나
Reddit은 10월 22일 뉴욕 연방법원에 소장을 제출했습니다. 피고는 AI 검색 엔진 Perplexity와 데이터 스크래핑 업체 3곳(SerpApi, Oxylabs, AWMProxy)입니다. 소송의 핵심은 간단합니다. Perplexity가 Reddit의 보호 장치를 우회해 불법으로 데이터를 가져갔다는 거죠.
Reddit의 법무 책임자 Ben Lee는 이렇게 말했습니다. “AI 기업들은 양질의 인간 콘텐츠를 확보하기 위한 군비 경쟁에 갇혀 있습니다. 그 압박이 산업적 규모의 ‘데이터 세탁’ 경제를 만들어냈죠.”
문제는 5월에 시작됐습니다. Reddit은 Perplexity에 중단 경고를 보냈어요. “우리 데이터 스크래핑을 멈추라”는 내용이었죠. Perplexity는 어떻게 답했을까요? “Reddit 콘텐츠를 AI 훈련에 사용하지 않는다”며 “robots.txt를 존중하겠다”고 약속했습니다.

그런데 실제로는 정반대였습니다. 중단 경고를 받은 후 Perplexity의 Reddit 인용이 오히려 폭증했거든요. Reddit 측은 “경고 이후 Perplexity가 생성한 답변에서 Reddit을 인용하는 빈도가 40배나 증가했다”고 주장합니다.
결정적 증거도 있습니다. Reddit은 Google만 크롤링할 수 있는 테스트 포스트를 올렸어요. 그런데 몇 시간 만에 Perplexity가 그 내용을 자신의 답변 엔진에 사용했습니다. Reddit은 이렇게 설명합니다. “Perplexity가 그 콘텐츠를 얻을 수 있는 유일한 방법은 Google 검색 결과를 스크래핑하는 것뿐입니다.”
데이터 세탁 경제는 어떻게 작동하나
Reddit은 소장에서 흥미로운 비유를 사용했습니다. “은행 금고에 들어갈 수 없다는 걸 안 은행 강도가 대신 현금수송차를 털었다”는 거죠.
작동 방식은 이렇습니다. Reddit은 봇의 직접 접근을 막아놨어요. 그래서 스크래핑 업체들은 다른 경로를 찾았습니다. Google 검색 결과에 나타나는 Reddit 콘텐츠를 대신 긁어가는 거죠.
소송에 이름이 오른 3개 업체는 각각 특징이 있습니다:
- SerpApi: 텍사스 기반 스타트업으로 Google 검색 결과 스크래핑을 공개적으로 광고
- Oxylabs: 리투아니아 데이터 스크래핑 회사
- AWMProxy: “전직 러시아 봇넷”이라고 Reddit이 규정한 업체
이들은 신원을 숨기고, 위치를 가리고, 일반 사용자처럼 보이도록 웹 스크래퍼를 위장합니다. 그렇게 훔친 데이터를 AI 기업에 팝니다. Perplexity는 최소한 이들 중 한 곳의 고객이라고 Reddit은 주장하죠.

양측은 뭐라고 말하나
Reddit의 입장은 명확합니다. “Perplexity는 훔친 데이터를 사는 것을 선택했어요. Reddit과 직접 합법적 계약을 맺는 대신 말이죠. 경쟁사 중 일부는 그렇게 했는데도요.”
실제로 Reddit은 OpenAI, Google과 유료 라이선스 계약을 맺었습니다. Anthropic도 무단 접근 혐의로 소송 중이고요. Reddit의 전략은 분명합니다. 우리 데이터를 쓰려면 돈을 내라는 거죠.
Perplexity의 반박도 만만치 않습니다. 회사 측은 Reddit에 긴 성명을 올렸어요. “우리는 콘텐츠로 AI 모델을 훈련시키지 않습니다. 한 번도 그런 적 없어요. 그래서 라이선스 계약을 맺는 건 불가능합니다.”
이어서 이렇게 덧붙였죠. “1년 전 Reddit에 이걸 설명했는데, Reddit은 어쨌든 돈을 내라고 고집했어요. 합법적으로 접근한 데이터인데도요. 강압 전술에 굴복하는 건 우리 비즈니스 방식이 아닙니다.”
Perplexity의 커뮤니케이션 책임자 Jesse Dwyer는 The Verge에 이렇게 말했습니다. “우리는 공개 지식에 자유롭고 공정하게 접근할 사용자의 권리를 위해 항상 적극적으로 싸울 겁니다.”
Oxylabs도 반발했습니다. 최고 거버넌스 전략 책임자 Denas Grybauskas는 “Reddit이 직접 연락도 없이 소송을 제기해 충격과 실망을 느낀다”며 “어떤 회사도 자신에게 속하지 않은 공개 데이터의 소유권을 주장해서는 안 된다”고 밝혔습니다.
왜 이 싸움이 중요한가
이건 단순한 회사 간 분쟁이 아닙니다. AI 시대의 데이터 경제를 둘러싼 근본적 질문이 걸려 있어요.
첫째, 누가 데이터를 소유하는가? Reddit 사용자들이 작성한 대화는 누구 것일까요? 작성자? Reddit? 아니면 “공개 데이터”로 누구나 쓸 수 있는 걸까요?
둘째, 공개된 데이터에도 접근 규칙이 있을까? Perplexity는 “공개 지식 접근권”을 주장합니다. 하지만 Reddit은 “우리가 기술적으로 보호 장치를 만들었는데 우회했다”고 반박하죠.
셋째, AI 혁신과 저작권 보호의 경계는 어디까지일까? 뉴욕타임스도 2023년 OpenAI를 저작권 침해로 고소했습니다. 최근 법원이 OpenAI의 ChatGPT 데이터 보존 의무를 일부 해제하긴 했지만, 소송은 계속되고 있어요.
Reddit의 데이터는 특히 가치가 높습니다. 수많은 주제에 대한 인간의 대화와 평가가 담겨 있거든요. AI 모델 훈련에 이상적이죠. 그래서 Reddit은 2023년 API 정책을 바꿔 이용료를 받기 시작했고, 이는 대규모 항의 시위로 이어졌습니다.
결국 이 싸움의 본질은 이겁니다. AI 기업들이 양질의 데이터를 얻기 위해 어디까지 할 수 있는가? 그리고 콘텐츠 플랫폼은 자신들의 데이터를 어떻게 보호하고 수익화할 수 있는가?
Perplexity는 1년 전만 해도 5억 달러 가치였지만 지금은 200억 달러입니다. 급성장의 연료는 바로 데이터죠. Reddit은 “합법적으로 계약 맺고 돈 내라”고 말합니다. Perplexity는 “공개된 정보를 쓰는 건 권리”라고 맞섭니다.
법원의 판단이 나오기까지는 시간이 걸릴 겁니다. 하지만 이 사건은 이미 분명한 신호를 보내고 있어요. AI 시대의 데이터 전쟁이 본격화됐고, 법적 경계는 아직 정해지지 않았다는 것 말이죠.
참고자료:
- Reddit sues Perplexity for allegedly ripping its content to feed AI – The Verge
- Reddit Sues Perplexity for Alleged Illegal Data Scraping – Analytics India Magazine
- Reddit Accuses ‘Data Scraper’ Companies of Theft – The New York Times

답글 남기기