AI Sparkup

복잡한 AI 세상을 읽는 힘

AI 크롤러의 급증: 웹사이트 리소스 소진과 분석 데이터 왜곡 문제

웹사이트 운영자들이 점점 더 심각한 문제에 직면하고 있습니다. 바로 AI 웹 크롤러의 활동이 급증하면서 사이트 성능, 분석 데이터, 서버 리소스에 상당한 영향을 미치고 있다는 것입니다. OpenAI, Anthropic, 구글, 애플과 같은 AI 기업들의 크롤러가 대형 언어 모델을 위한 데이터 수집 과정에서 상당한 대역폭을 소비하고 있으며, 이는 웹사이트의 전체적인 성능과 검색 랭킹에 영향을 미칠 수 있는 성능 지표에도 부정적인 영향을 미치고 있습니다.

AI 크롤러 트래픽 증가 이미지 AI 크롤러의 트래픽 증가는 웹사이트 리소스에 상당한 부담을 주고 있습니다. (출처: Search Engine Journal)

AI 크롤러의 규모와 영향력

AI 크롤러가 얼마나 큰 규모로 웹을 탐색하고 있는지 실제 데이터를 통해 살펴보면 놀랍습니다. Vercel의 네트워크 분석에 따르면 지난 한 달 동안:

  • OpenAI의 GPTBot이 5억 6,900만 건의 요청 생성
  • Anthropic의 Claude가 3억 7,000만 건의 요청 생성
  • 애플의 AppleBot이 3억 1,400만 건의 요청 생성
  • PerplexityBot이 2,440만 건의 요청 생성

이러한 AI 크롤러들의 총 트래픽은 Google 검색 크롤러(약 45억 건) 볼륨의 약 28%를 차지합니다. 이는 상당한 수치로, 웹사이트 성능에 영향을 미칠 수밖에 없는 수준입니다.

웹사이트 성능에 미치는 영향

SEO 전문가들은 전통적인 검색 엔진 크롤러에 최적화하는 방법에 익숙하지만, OpenAI, Anthropic, Amazon과 같은 기업들의 AI 크롤러 활동 증가는 새로운 기술적 고려사항을 요구합니다.

여러 사이트 운영자들이 AI 크롤러 활동으로 인한 성능 문제와 서버 부하 증가를 보고하고 있습니다. 예를 들어, 깃 호스팅 서비스인 SourceHut은 “공격적인 LLM 크롤러로 인해 지속적인 중단을 겪고 있다”고 상태 페이지에 보고했습니다. 이에 대응하여 SourceHut은 “GCP(Google Cloud)와 Azure(Microsoft) 등 여러 클라우드 제공업체에서 발생하는 대량의 봇 트래픽으로 인해 일방적으로 차단”하는 조치를 취했습니다.

AI 크롤러 차단 개념도 AI 크롤러 트래픽의 규모와 분포 (출처: Vercel)

분석 데이터에 미치는 영향

AI 크롤러로 인한 상당한 봇 트래픽은 웹사이트의 분석 데이터에도 영향을 미칩니다. 광고 측정 기업인 DoubleVerify에 따르면, “일반 무효 트래픽(GIVT, 광고 조회로 계산되어서는 안 되는 봇)이 2024년 하반기에 AI 크롤러로 인해 86% 증가했습니다”.

이 회사는 “2024년 알려진 봇 노출에서 발생한 GIVT의 16%(역대 최고 기록)가 GPTBot, ClaudeBot, AppleBot과 같은 AI 스크래퍼와 관련된 것”이라고 지적했습니다.

Read the Docs 프로젝트는 AI 크롤러를 차단한 후 트래픽이 하루 800GB에서 200GB로 75% 감소했으며, 이로 인해 대역폭 비용이 월 약 1,500달러 절감되었다고 보고했습니다.

AI 크롤러의 특징적인 패턴

AI 크롤러의 행동 패턴을 이해하면 트래픽 분석에 도움이 될 수 있습니다. AI 크롤러가 전통적인 봇과 다른 점은 접근 빈도와 깊이입니다. 검색 엔진 크롤러가 일반적으로 예측 가능한 패턴을 따르는 반면, AI 크롤러는 더 공격적인 동작을 보입니다.

디아스포라 소셜 네트워크의 인프라를 유지 관리하는 데니스 슈베르트는 AI 크롤러가 “페이지를 한 번 크롤링하고 다음으로 넘어가지 않습니다. 아니요, 명확한 이유 없이 6시간마다 돌아옵니다”라고 관찰했습니다. 이러한 반복적인 크롤링은 같은 페이지에 반복적으로 접근하면서 리소스 소비를 증가시킵니다.

빈도 외에도 AI 크롤러는 일반 방문자보다 더 많은 콘텐츠를 탐색합니다. SourceHut의 창립자인 드류 데볼트는 크롤러가 “모든 깃 로그의 모든 페이지와 리포지토리의 모든 커밋에 접근”하며, 이는 콘텐츠가 많은 사이트에서 특히 리소스를 많이 소비한다고 지적했습니다.

JavaScript 렌더링 능력

Vercel과 MERJ의 분석에 따르면 AI 크롤러 간에 JavaScript 렌더링 능력에 명확한 차이가 있습니다. 주요 AI 크롤러 중 대부분이 JavaScript를 실행하지 않는 것으로 나타났습니다:

  • OpenAI(OAI-SearchBot, ChatGPT-User, GPTBot)
  • Anthropic(ClaudeBot)
  • Meta(Meta-ExternalAgent)
  • ByteDance(Bytespider)
  • Perplexity(PerplexityBot)

반면에 다음 크롤러들은 JavaScript를 실행할 수 있습니다:

  • Google의 Gemini는 Googlebot의 인프라를 활용하여 전체 JavaScript 렌더링이 가능
  • AppleBot은 Googlebot과 유사한 브라우저 기반 크롤러를 통해 JavaScript 렌더링

이는 웹사이트 개발자에게 중요한 의미를 갖습니다. 서버 측 렌더링(SSR)을 사용하지 않는 사이트는 대부분의 AI 크롤러에게 완전한 콘텐츠를 제공하지 못할 수 있기 때문입니다.

가시성과 리소스 관리 균형 맞추기

웹사이트 소유자와 SEO 전문가들은 리소스를 많이 소비하는 크롤러를 관리하면서도 합법적인 검색 엔진에 대한 가시성을 유지해야 하는 실용적인 고려사항에 직면해 있습니다.

AI 크롤러가 사이트에 크게 영향을 미치는지 확인하려면:

  • 특히 클라우드 제공업체 IP 범위에서 비정상적인 트래픽 패턴에 대한 서버 로그 검토
  • 사용자 활동과 일치하지 않는 대역폭 사용량 급증 확인
  • 아카이브나 API 엔드포인트와 같은 리소스 집약적 페이지에 대한 높은 트래픽 확인
  • Core Web Vitals 지표의 비정상적인 패턴 모니터링

과도한 AI 크롤러 트래픽의 영향을 받는 웹사이트에 대해 몇 가지 옵션이 있습니다.

Google은 robots.txt 파일에서 ‘Google-Extended’라는 솔루션을 도입했습니다. 이를 통해 웹사이트는 Google의 Gemini 및 Vertex AI 서비스를 학습시키는 데 콘텐츠를 사용하지 않으면서도 검색 결과에 표시될 수 있습니다.

Cloudflare는 최근 “AI Labyrinth”를 발표하면서 “승인되지 않은 크롤링을 감지할 때 요청을 차단하는 대신, 크롤러가 탐색하도록 유인할 만큼 설득력 있는 AI 생성 페이지 시리즈로 연결합니다”라고 설명했습니다.

앞으로 나아갈 방향

AI가 검색 및 발견 과정에 통합됨에 따라 SEO 전문가들은 크롤러를 신중하게 관리해야 합니다. 다음은 몇 가지 실용적인 다음 단계입니다:

  1. 특정 사이트에 대한 AI 크롤러 영향을 평가하기 위해 서버 로그 검사
  2. 검색 가시성을 유지하면서 AI 학습 접근을 제한하기 위해 robots.txt에 Google-Extended 구현 고려
  3. 더 정확한 보고를 위해 분석 필터를 조정하여 봇 트래픽 분리
  4. 심각하게 영향을 받는 사이트의 경우 더 고급 완화 옵션 조사

대부분의 웹사이트는 표준 robots.txt 파일과 모니터링으로 충분하지만, 트래픽이 많은 사이트는 더 고급 솔루션을 통해 이점을 얻을 수 있습니다.

웹사이트 운영자를 위한 권장 사항

크롤링을 원하는 사이트 소유자를 위한 제안

  • 중요한 콘텐츠에 대해 서버 측 렌더링 우선시: ChatGPT와 Claude는 JavaScript를 실행하지 않으므로 중요한 콘텐츠는 서버에서 렌더링해야 합니다. 여기에는 주요 콘텐츠(기사, 제품 정보, 문서), 메타 정보(제목, 설명, 카테고리) 및 탐색 구조가 포함됩니다.
  • 개선 기능에 대해서는 클라이언트 측 렌더링 사용 가능: 뷰 카운터, 대화형 UI 개선, 라이브 채팅 위젯, 소셜 미디어 피드와 같은 필수적이지 않은 동적 요소에 대해서는 클라이언트 측 렌더링을 사용해도 좋습니다.
  • 효율적인 URL 관리가 그 어느 때보다 중요: AI 크롤러의 높은 404 오류율은 적절한 리디렉션 유지, 사이트맵 업데이트, 사이트 전체에서 일관된 URL 패턴 사용의 중요성을 강조합니다.

크롤링을 원하지 않는 사이트 소유자를 위한 제안

  • robots.txt를 사용하여 크롤러 접근 제어: robots.txt 파일은 모든 측정된 크롤러에 효과적입니다. 사용자 에이전트나 제품 토큰을 지정하여 AI 크롤러에 대한 특정 규칙을 설정하고 민감하거나 필수적이지 않은 콘텐츠에 대한 접근을 제한합니다.
  • Vercel의 WAF로 AI 크롤러 차단: ‘Block AI Bots Firewall Rule’을 사용하면 원클릭으로 AI 크롤러를 차단할 수 있습니다. 이 규칙은 방화벽을 자동으로 구성하여 AI 크롤러의 접근을 거부합니다.

결론

AI 크롤러는 웹 환경에서 점점 더 중요한 부분을 차지하고 있지만, 그 증가하는 존재감은 웹사이트 성능, 분석 및 리소스 관리에 새로운 도전을 제시합니다. 웹사이트 소유자와 개발자는 이러한 크롤러의 행동 패턴을 이해하고 균형 잡힌 접근 방식을 개발하여 콘텐츠 가시성을 유지하면서도 과도한 리소스 소비를 방지해야 합니다.

이미 오픈 소스 커뮤니티에서는 AI 크롤러로 인한 서버 비용과 리소스 소모에 대한 우려의 목소리가 높아지고 있습니다. 일부 개방형 소스 프로젝트는 AI 크롤러를 차단한 후 일일 트래픽이 75% 감소하고, 월간 대역폭 비용이 대폭 절감되었다고 보고했습니다.

AI 시대에 웹사이트 최적화를 위한 접근 방식은 진화하고 있으며, 웹사이트 소유자는 이러한 새로운 환경에 적응하여 성능, 비용 및 접근성 간의 균형을 유지해야 합니다.


참고자료:


Awsom GPT에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다