위키미디어 재단이 최근 심각한 위기를 겪고 있습니다. 인공지능(AI) 크롤러 봇들이 위키미디어 콘텐츠, 특히 위키미디어 커먼스(Wikimedia Commons)의 멀티미디어 파일을 대량으로 스크래핑하면서 대역폭 사용량이 급증하고 있기 때문입니다. 이는 디지털 지식 커먼스를 유지하는 오픈 인프라의 지속 가능성에 대한 중요한 질문을 던지고 있습니다.
위기의 실상: 50% 증가한 대역폭
위키미디어 재단의 공식 발표에 따르면, 2024년 1월부터 멀티미디어 콘텐츠 다운로드를 위한 대역폭 사용량이 50%나 증가했습니다. 이러한 급증은 지식을 찾는 일반 사용자들이 아닌, AI 모델을 훈련시키기 위해 데이터를 수집하는 자동화된 크롤러 봇들로부터 발생하고 있습니다.
위키미디어 커먼스는 1억 4,400만 개 이상의 이미지, 비디오, 기타 파일을 오픈 라이선스로 제공하는 저장소입니다. 이 콘텐츠는 전통적으로 검색 엔진 결과나 학교 프로젝트 등 다양한 용도로 활용되어 왔습니다. 그러나 AI 열풍과 함께 이 콘텐츠는 AI 훈련 데이터로서의 가치를 높이 평가받게 되었고, 이에 따라 AI 회사들은 직접 크롤링, API, 대량 다운로드 등 다양한 방법을 통해 이 데이터를 획득하고 있습니다.
위키미디어 프로젝트의 멀티미디어 대역폭 수요 그래프. 2024년 초부터 꾸준히 증가하는 추세를 보여주고 있다. (출처: Wikimedia Foundation)
실제 사례: 지미 카터 문제
이러한 문제의 실제 사례가 2024년 12월 지미 카터 전 미국 대통령의 사망 당시 발생했습니다. 영어 위키피디아의 지미 카터 페이지는 하루 동안 280만 회 이상의 조회수를 기록했습니다. 이 정도의 트래픽은 상대적으로 높지만 위키미디어의 인프라로 충분히 관리할 수 있는 수준이었습니다.
그러나 동시에 많은 사용자들이 카터의 1980년 로널드 레이건과의 대통령 토론 영상(1.5시간 분량)을 재생하면서 네트워크 트래픽이 평소의 두 배로 급증했습니다. 이로 인해 위키미디어의 일부 인터넷 연결이 약 한 시간 동안 완전히 포화 상태가 되어 일부 사용자들의 페이지 로딩 시간이 지연되었습니다.
사이트 신뢰성 팀(Site Reliability team)이 신속하게 인터넷 연결 경로를 변경하여 혼잡을 줄였지만, 이 사건은 AI 크롤러 봇들이 이미 기본 대역폭의 상당 부분을 소비하고 있어 특별한 이벤트가 발생했을 때 대응할 여유가 줄어들었다는 더 깊은 문제를 드러냈습니다.
비용의 비대칭: 봇이 가장 비싼 트래픽의 65%를 차지
위키미디어 재단은 전 세계 데이터센터 네트워크를 통해 콘텐츠를 제공합니다. 자주 요청되는 콘텐츠는 사용자와 가까운 지역 데이터센터에 캐시되어 빠르게 제공되지만, 오랫동안 요청되지 않은 콘텐츠는 핵심 데이터센터로부터 제공되어야 합니다.
여기서 문제가 발생합니다. 일반 사용자들은 특정한 유사 주제에 집중하는 경향이 있는 반면, 크롤러 봇들은 대량의 페이지를 무차별적으로 읽고 인기 없는 페이지까지 방문합니다. 이는 이러한 요청들이 핵심 데이터센터로 전달될 가능성이 높아지고, 결과적으로 더 많은 자원을 소비하게 됩니다.
위키미디어의 시스템 마이그레이션 과정에서 놀라운 사실이 발견되었습니다. 가장 비용이 많이 드는 트래픽의 65%가 봇에서 발생하고 있었습니다. 전체 페이지뷰에서 봇이 차지하는 비율은 약 35%에 불과했지만, 자원 소비 측면에서는 불균형적으로 높은 비율을 차지하고 있었던 것입니다.
AI 크롤러 봇들이 위키미디어와 같은 오픈 지식 리포지토리에 부담을 주고 있다. (출처: Carol Yepes and Dana Neibert via Getty Images)
오픈소스 생태계가 직면한 더 넓은 위기
위키미디어만 이런 문제를 겪는 것은 아닙니다. 오픈소스 프로젝트, 콘텐츠 게시자, 다양한 웹사이트들도 유사한 문제를 보고하고 있습니다. 많은 AI 크롤러 봇들이 ‘로봇 제외 프로토콜(Robots Exclusion Protocol)’ 파일인 robots.txt를 무시하고 있기 때문입니다.
특히 오픈소스 개발자들은 이 문제에 “불균형적으로” 영향을 받고 있습니다. 오픈소스 프로젝트는 본질적으로 인프라의 더 많은 부분을 공개적으로 공유하며, 상업적 제품보다 자원이 부족한 경향이 있습니다.
리눅스 데스크톱 Plasma 개발자이자 LibreNews 블로그 운영자인 니콜로 베네란디는 “AI 봇들이 자원을 너무 남용해서 개발자들이 전체 국가를 차단해야 하는 상황까지 갔다”고 말합니다. 실제로 거대한 리눅스 페도라 프로젝트의 시스템 관리자인 케빈 펜지는 AI 스크래퍼 봇들이 너무 공격적이어서 브라질 전체에서의 접근을 차단해야 했다고 밝혔습니다.
창의적인 대응: 트랩과 도구들
이러한 위기에 대응하여 개발자들은 다양한 창의적인 솔루션을 개발하고 있습니다:
- 아누비스(Anubis): FOSS 개발자 Xe Iaso가 개발한 이 도구는 Git 서버에 요청이 도달하기 전에 통과해야 하는 역방향 프록시 작업 증명 검사입니다. 이집트 신화의 사자(死者)의 신 이름을 딴 이 도구는 봇을 차단하되 인간이 운영하는 브라우저는 허용합니다.
- 네펜테스(Nepenthes): “Aaron”이라는 익명의 개발자가 만든 이 도구는 크롤러를 무한한 가짜 콘텐츠의 미로에 가두어 악의적으로 시간과 자원을 낭비하게 만듭니다. 이름은 육식 식물에서 따왔습니다.
- AI 미로(AI Labyrinth): 클라우드플레어가 최근 출시한 이 도구는 규칙을 준수하지 않는 AI 크롤러와 봇을 늦추고, 혼란시키며, 자원을 낭비하도록 설계되었습니다.

위키피디아는 전 세계에서 가장 큰 오픈 지식 컬렉션이지만, AI 크롤러로 인해 그 인프라가 위협받고 있다. (출처: Riccardo Milani / Hans Lucas / Hans Lucas via AFP / Getty Images)
지속 가능한 인프라를 향한 행동
위키미디어 재단은 “우리의 콘텐츠는 무료지만, 우리의 인프라는 그렇지 않다”라고 명확히 밝히고 있습니다. 재단은 이제 이 문제를 시스템적으로 해결하기 위한 작업을 시작했으며, 다가오는 회계연도에 개발자와 재사용자가 지식 콘텐츠에 접근할 수 있는 지속 가능한 방법을 수립하는 데 주력할 예정입니다.
재단의 초안 계획인 “WE5: 책임 있는 인프라 사용(Responsible Use of Infrastructure)”에서는 다음과 같은 질문들에 대한 답을 찾고자 합니다:
- 커뮤니티를 계속 지원하면서도 자동 콘텐츠 소비에 어떻게 경계를 설정할 수 있을까?
- 개발자와 재사용자들을 선호되고 지원되는 접근 채널로 어떻게 유도할 수 있을까?
- 책임 있는 콘텐츠 재사용을 장려하기 위해 어떤 지침이 필요할까?
더 넓은 영향: 폐쇄된 웹의 가능성
이러한 문제는 개방된 인터넷의 존재 자체를 위협하는 더 큰 트렌드의 일부입니다. 소프트웨어 엔지니어이자 오픈소스 옹호자인 Drew DeVault는 AI 크롤러가 봇을 차단하도록 설계된 “robots.txt” 파일을 무시한다고 지적했습니다. “실용적 엔지니어” Gergely Orosz도 Meta와 같은 회사의 AI 스크래퍼가 자신의 프로젝트에 대한 대역폭 수요를 증가시켰다고 불평했습니다.
이러한 상황이 계속된다면, 많은 발행자들이 로그인과 페이월 뒤로 숨어야 할 수도 있으며, 이는 결국 오늘날 웹을 사용하는 모든 사람에게 손해가 될 것입니다.
AI 개발자와 자원 제공자 간의 더 나은 조정을 통해 전용 API, 공유 인프라 자금 조달 또는 더 효율적인 접근 패턴과 같은 방법으로 이러한 문제를 해결할 수 있을 것입니다. 하지만 이러한 실질적인 협력 없이는 AI 발전을 가능하게 한 플랫폼들이 안정적인 서비스를 유지하는 데 어려움을 겪을 수 있습니다.
위키미디어의 경고는 명확합니다: 접근의 자유는 결과로부터의 자유를 의미하지 않습니다. 우리가 소중히 여기는 오픈 디지털 인프라의 미래는 모든 이해관계자들이 기술 발전과 지속 가능성 사이의 균형을 찾기 위해 협력하는 데 달려 있습니다.
참고자료:
Comments