AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

구글 AI 검색에 맞선 웹 인프라 반란: Cloudflare가 380만 웹사이트 robots.txt를 바꾼 이유

구글의 AI 요약 기능이 웹 퍼블리셔들의 생존을 위협하고 있습니다. Pew Research Center 조사에 따르면 AI Overviews가 표시되는 검색 결과에서 사용자의 클릭률이 절반으로 떨어졌죠. 이에 Cloudflare가 전 세계 웹의 20%를 관리하는 영향력을 활용해 robots.txt 표준을 혁신하며 구글을 압박하고 있습니다.

핵심 포인트:

  • 트래픽 50% 급감의 충격: Pew Research 연구 결과 AI Overviews 노출 시 사용자 클릭률이 15%에서 8%로 하락. Rolling Stone 등을 보유한 Penske Media는 제휴 링크 수익이 1년 새 1/3 감소해 구글을 제소
  • Cloudflare의 전격 대응: 380만 도메인의 robots.txt를 일괄 업데이트해 search(검색), ai-input(AI 요약), ai-train(학습) 용도를 분리. 법적 라이선스 형태로 설계해 구글이 무시할 수 없는 압박 구조 마련
  • 웹 생태계의 구조적 전환: 30년간 유지되던 “콘텐츠 제공 → 트래픽 유입 → 수익화” 순환 고리가 붕괴. 구글 내부에서도 “콘텐츠는 우리 권리” vs “공정하게 하자” 논쟁 격화

지금 무슨 일이 벌어지고 있나

구글은 2023년부터 웹사이트들이 AI 학습 데이터 수집을 거부할 수 있는 옵션을 제공했습니다. 하지만 여기 함정이 있습니다. 검색 엔진 인덱싱과 AI 요약 생성을 분리할 수 없다는 점이죠.

Cloudflare Content Signals Policy
Cloudflare가 법적 라이선스처럼 설계한 Content Signals Policy (출처: Cloudflare)

웹사이트 운영자는 딜레마에 빠집니다. 구글 검색 결과에 노출되려면 AI Overviews에도 콘텐츠를 내줘야 하는 상황. 검색 트래픽을 완전히 차단하는 건 재정적으로 자살 행위나 마찬가지니까요.

실제 피해는 심각합니다. Wall Street Journal 보도에 따르면 The New York Times, Business Insider 등 주요 언론사들이 AI 요약 기능 도입 이후 트래픽 급감으로 구조조정과 전략 수정을 단행했습니다. Rolling Stone과 Variety를 소유한 Penske Media는 지난 9월 구글을 상대로 소송을 제기했죠. 이유는 명확합니다. 제휴 링크 수익이 1년 새 3분의 1로 줄어들었고, 이는 주로 AI Overviews 때문이었습니다.

구글의 검색 책임자 Liz Reid는 이런 연구 결과와 퍼블리셔들의 주장이 “결함 있는 방법론에 기반했다”며 반박했습니다. 하지만 퍼블리셔들은 설득되지 않았습니다.

Cloudflare의 대응: Content Signals Policy

Cloudflare CEO Matthew Prince는 이 상황을 “조용한 규제”라고 표현합니다. 9월 24일, Cloudflare는 Content Signals Policy를 발표하며 수백만 개 웹사이트의 robots.txt 파일을 업데이트했습니다.

전통적으로 robots.txt는 크롤러가 웹사이트의 어느 부분에 접근할 수 있는지만 지정했습니다. Cloudflare의 새로운 표준은 한 단계 더 나아갑니다. 접근 허용 여부뿐 아니라 콘텐츠를 어떤 용도로 사용할 수 있는지를 명시하는 거죠.

세 가지 용도가 구분됩니다:

  • search: 검색 인덱스 구축과 검색 결과 제공 (링크와 짧은 발췌문). AI 생성 요약은 포함되지 않음
  • ai-input: 실시간 AI 요약 생성을 위한 콘텐츠 입력 (RAG, grounding 등)
  • ai-train: AI 모델 학습 또는 미세 조정

Cloudflare는 이미 관리형 robots.txt 기능을 사용하는 380만 도메인을 자동으로 업데이트했습니다. 기본값은 search=yes(검색 허용), ai-train=no(학습 거부), ai-input은 공백(입장 표명 안 함)입니다.

핵심은 이 정책을 라이선스 계약처럼 설계했다는 점입니다. 명확한 법적 언어로 작성되어 있고, EU의 저작권 지침까지 명시적으로 언급합니다.

왜 구글은 이걸 무시할 수 없나

Matthew Prince의 설명은 직설적입니다. “구글 법무팀은 이걸 보고 ‘이제 우리가 웹의 상당 부분에 걸쳐 의도적으로 무시해야 할 것’이라고 말할 겁니다.”

Cloudflare의 레버리지는 막강합니다. 전 세계 웹사이트의 약 20%가 Cloudflare의 서비스를 사용합니다. 소수의 웹사이트가 항의한다면 구글은 무시하거나 아예 크롤링을 중단할 수 있습니다. 하지만 수백만 개 사이트가 동시에 움직인다면? 구글 검색 품질 자체가 타격을 받습니다.

Prince는 구글을 “역사적으로 대체로 선한 행위자”이자 “웹의 후원자”였다고 평가합니다. 하지만 지금은 달라졌죠. “구글 내부에서는 싸움이 벌어지고 있습니다. ‘우리가 이 방식을 바꿔야 한다’는 사람들과 ‘그러면 우리의 본질적 이점을 포기하는 것이다. 우리는 인터넷의 모든 콘텐츠에 대한 신성한 권리를 가지고 있다’고 말하는 사람들 사이에서요.”

변호사들이 영향력을 발휘하는 구글에서, Cloudflare는 법적 리스크를 명확히 만들었습니다. 이제 구글이 이 라이선스를 무시하고 콘텐츠를 사용한다면 명백한 법적 근거가 생기는 셈입니다.

콘텐츠 창작자들은 어떻게 대응하면 좋을까

Cloudflare 사용자라면 선택은 간단합니다. 대시보드의 Security Settings나 Overview 섹션에서 Content Signals Policy를 활성화하고 원하는 설정을 선택하면 됩니다. 관리형 robots.txt 기능을 켜면 자동으로 ai-train=no가 설정됩니다.

Cloudflare를 사용하지 않는다면? ContentSignals.org에서 정책 텍스트를 생성해 자신의 robots.txt 파일에 추가할 수 있습니다. Cloudflare는 이 정책을 CC0 라이선스로 공개해 누구나 자유롭게 사용할 수 있게 했습니다.

하지만 현실적으로 고려해야 할 점들이 있습니다. 이 신호들은 선호를 표현할 뿐, 기술적 차단 장치는 아닙니다. 어떤 회사들은 단순히 무시할 수 있죠. Cloudflare는 Content Signals와 함께 WAF 규칙이나 Bot Management 같은 기술적 방어 수단을 병행할 것을 권장합니다.

장기적으로는 더 큰 그림을 봐야 합니다. 이것은 단순히 구글 하나의 문제가 아닙니다. Cloudflare는 Microsoft의 Bing과 파트너십을 맺고 RAG 도구를 개발 중이며, 크롤러들에게 사용량에 따라 비용을 청구하는 마켓플레이스도 실험하고 있습니다. 웹 경제의 새로운 모델이 형성되고 있는 시점입니다.

웹 생태계의 재편

디지털 퍼블리싱 초기부터 트래픽 유입은 웹 경제의 근간이었습니다. 콘텐츠를 무료로 제공하고, 출처로 트래픽을 돌려받아 수익화하는 구조. 하지만 RAG 기반 AI 요약이 보편화되면서 이 시스템이 작동을 멈췄습니다.

Prince의 말처럼 “인터넷만큼 크고 중요한 조직이나 기관의 미래 비즈니스 모델을 생각할 기회는 거의 없습니다.” 성공의 기준은 명확합니다. 구글이 전통적 검색과 AI 요약을 분리하는 것. 그것이 Cloudflare의 압박 때문이든, 다른 요인 때문이든, 대부분의 사람들은 그것이 좋은 출발점이라는 데 동의합니다.

중요한 건 이겁니다. 구글이 검색 엔진 시대에 확립한 지배력으로 AI 답변 엔진 시대의 승자가 되어서는 안 된다는 점. 웹 생태계가 건강하게 유지되려면 새로운 규칙이 필요합니다. Cloudflare는 그 첫 단추를 끼우려 하고 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다