AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI 검색엔진 Perplexity의 은밀한 크롤링 논란: 웹사이트 소유자 의사를 무시한 데이터 수집의 실체

Cloudflare가 AI 검색엔진 Perplexity가 웹사이트의 크롤링 거부 정책을 우회하기 위해 정체를 숨긴 은밀한 크롤러를 사용하고 있다고 폭로했습니다.

사건의 발단: 고객 불만에서 시작된 조사

Cloudflare는 자사 고객들로부터 흥미로운 불만을 접수했습니다. 웹사이트 운영자들이 robots.txt 파일에서 Perplexity의 크롤링을 명시적으로 금지하고, 웹 애플리케이션 방화벽(WAF) 규칙으로 Perplexity의 공식 크롤러 ‘PerplexityBot’과 ‘Perplexity-User’를 차단했음에도 불구하고, Perplexity가 여전히 그들의 콘텐츠에 접근하고 있다는 것이었습니다.

이 불만을 확인하기 위해 Cloudflare는 체계적인 실험을 진행했습니다. 새로운 도메인들을 생성하고 모든 자동화된 접근을 금지하는 robots.txt 파일을 설정한 후, 이 도메인들에 대해 Perplexity AI에게 질문을 던져보았습니다.

robots.txt 파일 설정 예시
실험에 사용된 robots.txt 파일 – 모든 크롤러의 접근을 금지하도록 설정

결과는 충격적이었습니다. 접근이 완전히 차단되어야 할 도메인들의 내용을 Perplexity가 정확히 알고 있었고, 상세한 정보까지 제공했습니다.

은밀한 크롤링의 실체: 정체성 위장과 IP 우회

Cloudflare의 조사 결과, Perplexity는 다음과 같은 방식으로 웹사이트의 차단을 우회하고 있었습니다:

1. 사용자 에이전트 위장

  • 공식 크롤러: Mozilla/5.0 AppleWebKit/537.36 (compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
  • 은밀한 크롤러: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 Chrome/124.0.0.0 Safari/537.36

공식 크롤러가 차단되면, Perplexity는 일반적인 Chrome 브라우저로 위장한 크롤러를 사용했습니다. 이는 마치 macOS에서 Chrome을 사용하는 일반 사용자인 것처럼 가장하는 것입니다.

2. IP 주소와 네트워크 회전
Perplexity는 공식 IP 범위에 포함되지 않은 다양한 IP 주소를 사용했으며, 심지어 서로 다른 자율 시스템 번호(ASN)를 통해 요청을 보내 추적을 어렵게 만들었습니다.

Perplexity 크롤링 워크플로우
Cloudflare가 관찰한 Perplexity의 크롤링 패턴

논란의 핵심: 웹 크롤링의 기본 원칙 위반

이번 사건이 중요한 이유는 웹 크롤링의 기본 원칙을 정면으로 위반했기 때문입니다. 건전한 크롤러가 지켜야 할 원칙들은 다음과 같습니다:

  • 투명성: 고유한 사용자 에이전트로 정체성을 명확히 밝힐 것
  • 목적의 명확성: 크롤링의 목적을 공개적으로 설명할 것
  • 규칙 준수: robots.txt 파일과 같은 웹사이트 지시사항을 존중할 것
  • 적절한 행동: 과도한 트래픽이나 은밀한 전술을 사용하지 말 것

Cloudflare는 대조 사례로 OpenAI를 언급했습니다. OpenAI의 ChatGPT는 robots.txt 파일을 확인하고 차단 지시를 받으면 즉시 크롤링을 중단하며, 다른 사용자 에이전트를 통한 우회 시도도 하지 않는다고 밝혔습니다.

Perplexity의 반박: “오해와 홍보용 기사”

Perplexity는 강력하게 반박했습니다. 회사 블로그를 통해 Cloudflare의 주장을 “홍보용 기사”라고 규정하고, 여러 기술적 오류를 지적했습니다.

Perplexity의 주요 반박 내용:

  • 사용자 주도 에이전트의 차이점: 전통적인 크롤링과 달리, 사용자가 질문을 할 때만 실시간으로 정보를 가져오는 방식
  • BrowserBase 혼동: Cloudflare가 관찰한 3-6백만 건의 일일 요청은 Perplexity가 아닌 제3자 클라우드 브라우저 서비스인 BrowserBase의 트래픽
  • 데이터 저장 안함: 가져온 정보를 데이터베이스에 저장하거나 AI 훈련에 사용하지 않음
AI 크롤링 논란 이미지
AI 시대 웹 크롤링을 둘러싼 새로운 논란들 (출처: Cloudflare)

웹사이트 운영자를 위한 대응 방안

이 논란이 웹사이트 운영자들에게 시사하는 바는 명확합니다. robots.txt 파일만으로는 AI 크롤러를 완전히 차단하기 어려울 수 있다는 점입니다.

실용적인 보호 방법:

  1. Cloudflare 보호 기능 활용: AI 크롤러 차단 규칙과 봇 관리 시스템 사용
  2. 다층 차단 전략: robots.txt와 함께 WAF 규칙, IP 차단 등을 조합
  3. 모니터링 강화: 웹사이트 접속 로그를 정기적으로 점검하여 의심스러운 패턴 탐지

Cloudflare는 이번 사건 이후 Perplexity를 인증된 봇 목록에서 제외하고, 은밀한 크롤링을 탐지하여 차단하는 새로운 규칙을 추가했습니다.

AI 시대 웹 생태계의 새로운 과제

이번 논란은 AI 시대에 접어들면서 웹 생태계가 직면한 근본적인 문제를 드러냅니다. AI 회사들이 학습 데이터를 확보하려는 요구와 콘텐츠 제작자들의 권리 보호 사이에서 새로운 균형점을 찾아야 할 때입니다.

특히 주목할 점은 AI 어시스턴트와 전통적인 크롤러의 경계가 모호해지고 있다는 것입니다. 사용자의 질문에 실시간으로 답하기 위해 웹사이트를 방문하는 것과 대규모 데이터 수집을 위한 크롤링 사이의 구분이 기술적으로나 윤리적으로 복잡한 문제가 되고 있습니다.

이런 상황에서 웹사이트 운영자들은 자신의 콘텐츠가 어떻게 사용되는지 더욱 주의 깊게 모니터링하고, 필요에 따라 적극적인 보호 조치를 취해야 할 것입니다. 동시에 AI 회사들에게는 더 높은 수준의 투명성과 윤리적 책임이 요구되고 있습니다.


참고자료:


AI Sparkup 구독하기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments