AI Sparkup

복잡한 AI 세상을 읽는 힘

AI 봇 차단율 급증의 배경과 의미: 1억 4천만 웹사이트 분석 결과

인공지능이 우리 일상에 깊숙이 들어오면서, AI 봇들이 웹을 크롤링하는 활동도 급격히 증가하고 있습니다. 하지만 이와 함께 웹사이트들이 AI 봇을 차단하는 비율도 눈에 띄게 늘어나고 있다는 흥미로운 연구 결과가 발표되었습니다.

최근 SEO 도구로 유명한 Ahrefs가 약 1억 4천만 개의 웹사이트를 대상으로 실시한 대규모 연구에서, AI 봇 차단율의 급격한 증가 추세와 그 배경을 상세히 분석했습니다. 이 연구 결과는 현재 AI 생태계가 직면한 중요한 갈등 구조를 보여주며, 향후 AI 발전 방향에 대한 시사점을 제공합니다.

AI bot crawling visualization 출처: Cloudflare Blog

급증하는 AI 봇과 차단율 현황

연구 결과에 따르면, AI 봇의 수는 2023년 8월 10개에서 2024년 12월 21개로 1년 만에 두 배 이상 증가했습니다. 이는 AI 시장의 급속한 성장과 경쟁 심화를 반영하는 수치입니다.

가장 많이 차단되는 AI 봇은 OpenAI의 GPTBot으로, 전체 웹사이트의 5.89%가 이를 차단하고 있습니다. 하위 도메인까지 포함한 전체 robots.txt 파일(약 4억 6천100만 개)을 분석하면 GPTBot의 차단율은 7.3%까지 상승합니다.

특히 주목할 점은 Anthropic의 ClaudeBot이 지난 1년간 차단율이 32.67% 증가하여 가장 높은 성장률을 보였다는 것입니다. 이는 Claude의 인지도 상승과 함께 웹사이트들의 경계심도 높아졌음을 의미합니다.

봇 활동량과 차단율의 상관관계

연구진은 흥미로운 상관관계를 발견했습니다. 더 많은 요청을 보내는 AI 봇일수록 더 자주 차단되는 경향을 보인다는 것입니다. 통계적으로 0.512의 피어슨 상관계수를 보이며, 이는 5% 유의수준에서 통계적으로 유의미한 결과입니다.

Correlation between bot activity and blocking rates 출처: Ahrefs Blog

산업별 차단 패턴의 특징

업종별로 AI 봇 차단율을 분석한 결과, 예상외의 패턴이 나타났습니다. 뉴스 미디어가 가장 많이 차단할 것으로 예상되었지만, 실제로는 예술/엔터테인먼트 분야가 45%로 가장 높은 차단율을 보였고, 법률/정부 분야가 42%로 그 뒤를 이었습니다.

각 산업의 차단 이유를 분석하면 다음과 같습니다:

  • 예술/엔터테인먼트: 창작물의 무단 학습에 대한 윤리적 거부감과 저작권 보호 의식
  • 도서/문학: 명확한 저작권 침해 우려
  • 법률/정부: 법적 리스크와 컴플라이언스 문제
  • 뉴스/미디어: AI 모델이 자신들의 기사로 학습하여 경쟁 서비스가 되는 것에 대한 우려
  • 쇼핑: 경쟁사의 가격 정보 수집이나 재고 모니터링 방지
  • 스포츠: 뉴스/미디어와 유사한 수익 감소 우려

뉴스 업계의 강력한 반발

옥스퍼드 대학 로이터 저널리즘 연구소의 별도 연구에 따르면, 2023년 말 기준으로 10개국 주요 뉴스 웹사이트의 48%가 OpenAI의 크롤러를 차단하고 있으며, 24%가 Google의 AI 크롤러를 차단하고 있는 것으로 나타났습니다.

특히 미국에서는 주요 뉴스 사이트의 79%가 OpenAI 크롤러를 차단하고 있어 가장 높은 차단율을 보였습니다. 반면 멕시코와 폴란드는 각각 20%로 가장 낮은 차단율을 기록했습니다.

흥미롭게도 Google AI 크롤러를 차단하는 웹사이트의 97%가 OpenAI 크롤러도 함께 차단하고 있습니다. 이는 ChatGPT의 높은 인지도나 OpenAI 크롤러가 먼저 출시된 점, 또는 Google 검색 순위에 미칠 영향을 우려해 상대적으로 Google 차단에 신중한 접근을 보이는 것으로 해석됩니다.

무단 크롤링의 심각한 실태

TollBit의 2024년 4분기 보고서는 더욱 심각한 문제를 드러냅니다. robots.txt를 무시하고 크롤링하는 AI 봇의 활동이 3분기 대비 4분기에 40% 이상 증가했다는 것입니다. 이는 일부 AI 봇들이 웹사이트의 차단 요청을 완전히 무시하고 있음을 의미합니다.

더욱 우려스러운 점은 Perplexity 같은 AI 서비스들이 차단당했을 때 신원을 밝히지 않는 사용자 에이전트를 통해 웹사이트에 접근하고 있다는 사실입니다. 4분기에 신원불명 사용자 에이전트의 크롤링 활동이 확인된 AI 봇 크롤링과 거의 동일한 수준에 달했습니다.

Bot blocking trends over time 출처: Ahrefs Blog

트래픽 기여도와 가치 제안의 한계

AI 봇들이 웹사이트로부터 대량의 데이터를 수집하는 반면, 역으로 웹사이트에 제공하는 가치는 미미한 수준입니다. Ahrefs의 분석에 따르면, AI 서비스들이 웹사이트로 보내는 추천 트래픽은 전체 추천 트래픽의 0.1%에 불과합니다. 이는 검색 엔진의 43.8%와 비교할 때 극히 미미한 수준입니다.

TollBit의 연구는 더욱 구체적인 수치를 제시합니다. AI 챗봇들이 생성하는 추천 트래픽은 기존 Google 검색 대비 96% 낮은 수준이라는 것입니다. 이는 AI 서비스들이 아직 검색 엔진과 웹사이트 간의 상호 보완적 관계를 구축하지 못하고 있음을 보여줍니다.

향후 전망과 시사점

지속가능한 생태계 구축의 필요성

현재의 데이터는 AI 생태계의 지속가능성에 대한 근본적인 질문을 제기합니다. 검색 엔진과 웹사이트 간에는 “데이터 제공 → 트래픽 유입”이라는 상호 이익의 구조가 존재하지만, AI 서비스들은 아직 이러한 가치 교환 메커니즘을 구축하지 못했습니다.

향후 AI 서비스 중 웹사이트 소유자들에게 실질적인 노출 효과와 클릭 유입을 제공하는 첫 번째 서비스가 시장에서 큰 경쟁 우위를 가질 것으로 예측됩니다. 이러한 서비스는 웹사이트 소유자들로부터 긍정적인 보고를 받게 되고, 이는 채택률 증가와 차단율 감소로 이어질 것입니다.

비즈니스 모델의 변화 필요성

만약 AI 서비스들이 계속해서 “벽으로 둘러싸인 정원(walled garden)” 방식을 고수한다면, 더 많은 웹사이트들이 AI 봇을 차단할 것이고, 결국 AI 기업들은 데이터 접근을 위해 웹사이트에 직접 비용을 지불해야 하는 상황에 직면할 수 있습니다.

실제로 Axel Springer과 OpenAI 간의 파트너십, 뉴욕타임스의 OpenAI 고소 사건 등은 이미 이러한 변화의 전조를 보여주고 있습니다.

기술적 대응의 한계

robots.txt를 무시하는 AI 봇들의 증가는 기존의 웹 표준에 대한 도전을 의미합니다. 이는 웹사이트들이 방화벽이나 IP 차단과 같은 더 강력한 기술적 대응책을 사용할 수밖에 없게 만들고 있습니다.

웹사이트 운영자를 위한 고려사항

AI 봇 차단 여부 결정 기준

웹사이트 운영자들이 AI 봇 차단 여부를 결정할 때 고려해야 할 요소들은 다음과 같습니다:

  1. 비즈니스 모델: 광고 수익에 의존하는 사이트는 트래픽 감소를 우려해 차단에 신중할 수 있음
  2. 콘텐츠 유형: 창작물이나 독창적 콘텐츠의 경우 무단 학습에 대한 우려가 클 수 있음
  3. 브랜드 노출 효과: AI 서비스를 통한 브랜드 인지도 향상 기대
  4. 기술적 리소스: 봇 크롤링으로 인한 서버 부하와 비용
  5. 법적 리스크: 저작권이나 개인정보보호 관련 우려

단계별 대응 전략

  1. 모니터링 단계: 현재 AI 봇들의 크롤링 활동과 트래픽 기여도 파악
  2. 선택적 차단: 가장 활발한 봇들에 대해서만 우선 차단 적용
  3. 협상 준비: AI 기업들과의 직접적인 파트너십이나 라이선스 계약 검토
  4. 기술적 강화: robots.txt 외에 추가적인 차단 메커니즘 구축

결론: 새로운 균형점 찾기

AI 봇 차단율의 급증은 단순한 기술적 이슈를 넘어서 디지털 생태계의 근본적인 변화를 보여줍니다. 웹사이트들이 자신의 콘텐츠에 대한 통제권을 강화하려는 움직임과 AI 기업들의 데이터 수집 욕구 사이의 갈등이 점점 명확해지고 있습니다.

이러한 갈등이 건설적으로 해결되려면, AI 서비스들이 웹사이트 소유자들에게 실질적인 가치를 제공하는 새로운 모델을 만들어야 합니다. 단순히 데이터를 가져가는 것이 아니라, 웹사이트의 가시성을 높이고 트래픽을 유입시키는 상호 보완적 관계를 구축해야 합니다.

웹사이트 운영자들 역시 무조건적인 차단보다는 전략적 접근이 필요합니다. AI 서비스의 성장 잠재력을 고려하되, 자신의 콘텐츠와 비즈니스 모델을 보호할 수 있는 균형점을 찾아야 할 것입니다.

앞으로 이 분야의 변화를 지켜보는 것은 AI 생태계의 미래를 예측하는 중요한 지표가 될 것입니다. 과연 AI 서비스들이 웹 생태계와 조화를 이루는 방향으로 발전할지, 아니면 더욱 대립적인 관계로 치닫게 될지 주목해볼 필요가 있습니다.


참고자료:

Comments