봇 트래픽의 급증으로 웹사이트들이 마비되고 있다. (출처: Marco VDM/Getty)
올해 2월, 약 300만 장의 생물 종 사진을 보유한 온라인 이미지 저장소 DiscoverLife는 갑작스러운 변화를 겪었습니다. 평소보다 훨씬 많은 하루 수백만 건의 접속이 몰려들면서 웹사이트가 느려지기 시작했고, 심지어 사용할 수 없을 정도로 마비되는 상황까지 발생했습니다. 범인은 바로 ‘봇(bot)’이었습니다.
이는 단순한 기술적 문제가 아닙니다. 생성형 AI의 폭발적 성장과 함께 시작된 새로운 현상으로, 전 세계 학술계가 예상치 못한 도전에 직면하고 있습니다.
학술계를 강타한 ‘봇 대홍수’
웹 크롤링 봇 자체는 새로운 것이 아닙니다. 구글과 같은 검색엔진은 수십 년간 봇을 사용해 웹페이지를 스캔하고 콘텐츠를 색인화해왔습니다. 하지만 최근 상황은 완전히 다릅니다. 생성형 AI의 등장으로 인해 ‘악성 봇’이라 불리는 무차별적인 데이터 수집 프로그램들이 급증했기 때문입니다.
런던에 본사를 둔 의학 저널 출판사 BMJ는 올해 들어 봇 트래픽이 실제 사용자 트래픽을 넘어섰다고 보고했습니다. 이러한 공격적인 봇들의 행동은 출판사의 서버에 과부하를 일으켜 정당한 고객들의 서비스 이용을 방해하고 있습니다.
“현재 상황은 마치 서부 개척 시대와 같습니다”라고 영국 옥스퍼드에 본사를 둔 PSI의 CEO 앤드류 피츠(Andrew Pitts)는 말합니다. “가장 큰 문제는 웹사이트 접근 요청의 엄청난 양으로, 이는 시스템에 부담을 주어 비용을 증가시키고 진짜 사용자들에게 피해를 줍니다.”
오픈소스 AI 챗봇의 붐이 연구자들에게 미치는 영향 (출처: Nature)
충격적인 연구 결과: 90% 이상의 기관이 피해 경험
국제 오픈 액세스 저장소 연맹(COAR)이 2025년 4월 실시한 설문조사 결과는 문제의 심각성을 여실히 보여줍니다. 전 세계 66개 회원 기관을 대상으로 한 이 조사에서 90% 이상이 AI 봇의 콘텐츠 스크래핑을 경험했다고 응답했습니다. 더욱 충격적인 것은 이 중 약 3분의 2가 서비스 중단을 겪었다는 점입니다.
조사 결과에 따르면:
- 90% 이상의 저장소가 공격적인 봇 활동을 경험
- 주 1회 이상 봇 활동으로 인한 성능 저하 발생
- 약 67%가 실제 서비스 중단 피해 경험
- 일부 기관은 하루 1-2회 성능 저하, 주 1회 시스템 완전 중단 경험
설문조사에 참여한 한 기관은 “매일 여러 봇들이 24시간 내내 저장소에 접근하고 있습니다. 봇 활동으로 인한 성능 저하가 하루에 한두 번 발생하고, 적어도 주에 한 번은 시스템이 완전히 다운되어 서비스 재시작과 같은 개입이 필요합니다”라고 답했습니다.
COAR의 사무총장 캐슬린 쉬어러(Kathleen Shearer)는 “저장소들은 오픈 액세스를 표방하므로, 어떤 의미에서는 콘텐츠의 재사용을 환영합니다. 하지만 일부 봇들은 너무 공격적이어서 서비스 중단과 심각한 운영 문제를 야기하고 있습니다”라고 설명했습니다.
DeepSeek 효과: 게임 체인저가 된 효율적 AI 개발
이러한 봇 급증의 핵심 원인 중 하나는 중국의 AI 스타트업 DeepSeek의 등장입니다. DeepSeek은 기존 대형 언어 모델(LLM) 개발에 필요한 막대한 컴퓨팅 파워와 비용을 대폭 줄이면서도 OpenAI의 GPT나 구글의 Gemini에 맞먹는 성능을 달성할 수 있음을 증명했습니다.
Highwire Press의 개발 및 운영 관리자 로히트 프라자파티(Rohit Prajapati)는 “이전까지는 대부분의 LLM이 만들어지려면 엄청난 양의 컴퓨팅 파워가 필요했습니다. 하지만 DeepSeek 개발자들이 훨씬 적은 자원으로도 인기 있는 생성형 AI 도구들과 경쟁할 수 있는 LLM을 만들 수 있다는 것을 보여주면서, 이런 모델을 훈련시키는 데 필요한 데이터를 스크래핑하려는 봇들의 폭발적 증가를 촉발했습니다”라고 설명했습니다.
이는 AI 개발의 민주화를 의미하는 동시에, 더 많은 기업들이 경쟁에 뛰어들면서 훈련 데이터에 대한 수요가 급격히 증가했음을 뜻합니다.
학술 생태계의 위기: 작은 기관들의 생존 위협
문제는 단순히 기술적 불편함에 그치지 않습니다. 특히 자원이 제한된 소규모 학술 기관들에게는 생존의 문제가 되고 있습니다.
독일 슈투트가르트 주립 자연사박물관의 동물학자 마이클 오르(Michael Orr)는 “이런 종류의 문제들이 해결되지 않는다면, 이러한 소규모 사업들은 멸종될 수 있습니다”라고 경고했습니다.
실제로 학술 출판 전문 호스팅 서비스인 Highwire Press의 서비스 전달 디렉터 제스 카인스(Jes Kainth)는 “우리는 ‘악성 봇’ 트래픽의 엄청난 증가를 목격하고 있습니다. 이는 큰 문제입니다”라고 말했습니다.
소셜 과학자들이 온라인 대화에서 인사이트를 얻기 위해 봇과 싸우고 있다 (출처: Nature)
현재 시도되고 있는 대응 방안들
학술 기관들은 이 문제에 맞서기 위해 다양한 방법을 시도하고 있습니다:
기술적 대응책:
- robots.txt 파일 활용: 웹사이트의 루트 디렉토리에 배치하여 특정 봇의 접근을 차단
- IP 주소 차단: 의심스러운 트래픽 소스를 식별하여 차단
- Rate Limiting: 단일 IP 주소에서 오는 요청 빈도를 제한
- CAPTCHA 시스템: 사람과 봇을 구별하기 위한 인증 시스템 도입
협력적 접근:
- PSI와 같은 서비스: 검증된 IP 주소의 글로벌 저장소를 제공하여 학술 커뮤니케이션 분야에서 신뢰할 수 있는 트래픽을 식별
- 클라우드플레어의 AI 봇 차단 도구: 원클릭으로 AI 봇을 차단할 수 있는 서비스 제공
하지만 이러한 조치들도 완벽하지 않습니다. 봇을 차단하는 과정에서 정당한 사용자나 유익한 시스템의 접근까지 방해할 수 있기 때문입니다.
미래를 위한 해결책 모색
이 문제의 심각성을 인식한 COAR는 2025년 7월 “저장소와 AI 봇 태스크포스”를 출범시킬 예정입니다. 이 태스크포스는 저장소의 기술 담당자들과 전문가들을 모아 잠재적 해결책을 논의하고 저장소 커뮤니티를 위한 권고안을 개발할 계획입니다.
현재 상황에서 가장 우려되는 점은 저장소들이 인간과 기계 사용자 모두에게 접근을 제한할 수밖에 없다는 것입니다. 이는 전 세계 저장소 네트워크의 가치를 크게 감소시킬 수 있습니다.
상생의 길을 찾아서
학술 저장소들의 근본적인 사명은 그들의 컬렉션에 대한 접근을 제공하여 학문과 사회의 이익을 위해 재사용되고 재목적화되도록 하는 것입니다. 하지만 현재의 공격적인 봇 활동은 이러한 개방성 자체를 위협하고 있습니다.
해결책은 기술적 차단만으로는 부족할 것입니다. AI 개발 업계와 학술계 간의 상호 존중과 협력이 필요합니다. 예를 들어:
- 윤리적 데이터 수집 가이드라인 수립
- 학술 기관과 AI 기업 간의 협력 프레임워크 개발
- 공정한 데이터 사용료 지불 시스템 구축
- 봇 트래픽의 투명성 확보
DeepSeek의 성공이 보여준 것처럼, AI 개발은 더 이상 소수 대기업의 전유물이 아닙니다. 이는 기회인 동시에 도전입니다. 학술 데이터의 가치를 인정하고 이를 지속 가능한 방식으로 활용할 수 있는 새로운 생태계를 구축해야 할 때입니다.
현재 벌어지고 있는 이 ‘데이터 전쟁’은 단순히 기술적 문제가 아닙니다. 인류의 지식이 어떻게 보존되고 공유되며 발전해 나갈 것인지에 대한 근본적인 질문을 던지고 있습니다. 이 질문에 대한 답을 찾는 것이 앞으로 AI 시대 학술계의 가장 중요한 과제가 될 것입니다.
참고자료:
Comments