인터넷이 시작된 이래 웹 크롤러는 검색 엔진의 핵심 기술로 자리잡아 왔습니다. 하지만 AI 시대가 본격화되면서 웹 크롤링의 목적과 양상이 급격히 변화하고 있습니다. 단순히 검색 결과를 위한 인덱싱을 넘어서, 거대 AI 모델 학습을 위한 데이터 수집이라는 새로운 전장이 펼쳐지고 있는 것입니다.
최근 Cloudflare가 발표한 웹 크롤링 트렌드 분석 보고서는 이러한 변화의 실체를 구체적인 데이터로 보여줍니다. 2024년 5월부터 2025년 5월까지 1년간의 데이터를 분석한 결과, AI 크롤러 생태계에서 놀라운 변화가 일어났음이 드러났습니다.
출처: Cloudflare Blog
GPTBot의 폭발적 성장, AI 크롤러 판도 완전 변화
Cloudflare의 분석에 따르면, 2024년 5월과 2025년 5월 사이 AI 크롤러 시장에서 가장 주목할 만한 변화는 OpenAI의 GPTBot 급성장입니다. GPTBot은 단 1년 만에 시장 점유율을 5%에서 30%로 끌어올리며 AI 크롤러 부문 1위에 올랐습니다. 이는 무려 305%의 성장률을 기록한 것으로, ChatGPT와 같은 대형 언어 모델 학습을 위한 데이터 수요가 얼마나 폭발적으로 증가했는지를 보여줍니다.
반면, 이전 1위였던 ByteDance의 Bytespider는 극적인 몰락을 경험했습니다. 42%였던 점유율이 7%로 급락하며 5위로 밀려났고, 실제 요청 수는 85%나 감소했습니다. TikTok의 모회사인 ByteDance가 AI 크롤링 전략을 조정했거나, 다른 빅테크 기업들의 공격적인 데이터 수집에 밀려난 것으로 해석됩니다.
새로운 강자로는 Meta의 Meta-ExternalAgent가 등장했습니다. 이 크롤러는 2024년에는 존재하지 않았지만, 2025년 5월에는 19%의 점유율로 3위에 올랐습니다. Meta가 Instagram과 Facebook에 통합한 Meta AI 서비스를 위한 데이터 수집을 본격화한 결과로 보입니다.
2024년 5월 AI 크롤러 점유율 (출처: Cloudflare)
구글의 압도적 지배력, Googlebot 96% 성장
AI 크롤러들의 경쟁이 치열해지는 가운데, 전체 크롤링 시장에서는 여전히 구글이 압도적인 지배력을 유지하고 있습니다. Googlebot은 2024년 5월 30%에서 2025년 5월 50%로 점유율을 확대했고, 실제 요청 수는 96% 증가했습니다. 특히 2025년 4월에는 전년 같은 달 대비 145% 증가한 피크를 기록했습니다.
이러한 급성장은 구글이 검색 엔진에 AI Overview 기능을 도입하고 AI Mode를 출시하면서 더 많은 웹 데이터가 필요해졌기 때문으로 분석됩니다. 전통적인 검색 인덱싱과 AI 기반 검색 기능을 위한 데이터 수집이 동시에 이루어지면서 크롤링 활동이 폭증한 것입니다.
구글은 또한 2023년에 도입한 GoogleOther라는 별도의 크롤러도 운영하고 있습니다. 이 크롤러는 ‘연구 개발’ 목적으로 사용된다고 공개되어 있으며, 14%의 성장률을 보였습니다. 구글이 AI 시대에 맞춰 다양한 목적의 크롤링 인프라를 구축하고 있음을 보여줍니다.
Googlebot 크롤링 활동 증가 추이 (출처: Cloudflare)
웹사이트 소유자들의 반격: robots.txt로 AI 차단 증가
AI 크롤러들의 공격적인 데이터 수집에 대응하여, 웹사이트 소유자들도 적극적인 대응에 나서고 있습니다. Cloudflare의 조사에 따르면, 상위 10,000개 도메인 중 robots.txt 파일이 확인된 3,816개 사이트 중 546개(약 14%)가 AI 봇에 대한 구체적인 허용 또는 차단 규칙을 설정하고 있습니다.
흥미롭게도 가장 많이 차단되는 크롤러는 GPTBot입니다. 312개 도메인이 GPTBot을 차단하고 있으며(완전 차단 250개, 부분 차단 62개), 이는 OpenAI의 급성장과 함께 콘텐츠 소유자들의 우려도 함께 커지고 있음을 보여줍니다.
하지만 역설적으로 GPTBot은 명시적으로 허용된 경우도 가장 많았습니다. 61개 도메인이 GPTBot에 접근을 허용했는데(완전 허용 18개, 부분 허용 43개), 이는 일부 웹사이트 소유자들이 AI 검색 시대에 맞춰 자신의 콘텐츠가 AI 모델에 학습되기를 원한다는 것을 의미합니다.
콘텐츠 권리와 AI 학습의 새로운 균형점
이러한 변화는 단순한 기술 트렌드를 넘어서 콘텐츠 저작권과 AI 학습 데이터 활용이라는 중요한 이슈를 제기합니다. 뉴욕타임스, 가디언 등 주요 언론사들이 AI 크롤러 차단에 나서는 한편, 일부 창작자들은 오히려 AI 모델에 자신의 콘텐츠가 학습되기를 원하는 상반된 움직임이 나타나고 있습니다.
네덜란드의 독립 개발자 피터 레벨스(Pieter Levels)처럼 “AI 크롤러를 100% 환영한다. LLM에서의 순위가 매우 중요하다”고 말하는 창작자들도 있습니다. 이는 검색 엔진 최적화(SEO)에 이어 ‘AI 최적화’라는 새로운 개념이 등장하고 있음을 시사합니다.
전체적으로 AI와 검색 크롤러 트래픽은 2024년 5월 대비 2025년 5월 18% 증가했습니다. 새로운 Cloudflare 고객까지 포함하면 증가율은 48%에 달합니다. 이는 전 세계 웹 트래픽의 약 30%를 차지하는 봇 트래픽이 더욱 증가하고 있으며, 그 중 상당 부분이 AI 학습을 위한 데이터 수집임을 의미합니다.
AI 및 검색 크롤러 트래픽 증가 추이 (출처: Cloudflare)
웹 생태계의 미래: 협력과 통제의 새로운 패러다임
Cloudflare의 이번 분석 결과는 웹 생태계가 근본적인 변화의 기로에 서 있음을 보여줍니다. AI 기업들의 데이터 수집 욕구는 계속 증가할 것이고, 콘텐츠 창작자들은 자신의 지적 재산권을 보호하면서도 AI 시대의 혜택을 누리고자 할 것입니다.
이러한 상황에서 robots.txt 같은 전통적인 방법만으로는 한계가 있다는 인식이 확산되고 있습니다. Cloudflare가 최근 출시한 AI Audit 같은 도구처럼, 웹사이트 소유자들이 AI 크롤러를 더 효과적으로 관리할 수 있는 기술적 솔루션이 주목받고 있습니다.
앞으로는 웹 콘텐츠 접근에 대한 더 정교한 권한 관리 시스템이 필요할 것으로 보입니다. 단순한 허용/차단을 넘어서, 콘텐츠 유형별, 사용 목적별, 보상 조건별로 세분화된 접근 권한을 설정할 수 있는 시스템이 등장할 가능성이 높습니다.
결국 AI 크롤러 시대의 핵심은 기술적 혁신과 함께 공정한 데이터 활용 생태계를 구축하는 것입니다. GPTBot과 Googlebot의 급성장은 AI 시대의 시작에 불과할 수 있으며, 앞으로 더 많은 변화와 도전이 기다리고 있을 것입니다.
참고자료:
Comments