AI 스크래핑 우려로 340개 언론사가 인터넷 아카이브를 차단했다, 진짜 피해자는 따로 있다

2026-05-29

﹒

AI 트렌드 분석

﹒

2 minutes

ChatGPT와 Claude의 크롤러는 통과시켰습니다. 그러면서 인터넷 아카이브는 막았습니다. AI로부터 콘텐츠를 지키겠다는 언론사들이 내린 결정치고는 꽤 역설적입니다.

사진 출처: Nieman Lab

Nieman Lab이 2026년 5월 발표한 후속 조사에 따르면, 현재 미국 내 342개 지역 언론사가 인터넷 아카이브의 크롤링 봇을 차단하고 있습니다. USA Today Co., McClatchy, Advance Local, MediaNews Group, Tribune Publishing 등 미국 최대 지역 언론 체인 7개 중 5개가 포함된 수치입니다. 올해 1월 241개에서 불과 5개월 만에 141개가 추가됐습니다.

출처: More than 340 local news outlets are limiting the Internet Archive’s access to their journalism – Nieman Lab

AI를 막으려다 아카이브를 막은 이유

언론사들이 인터넷 아카이브를 차단하는 논리는 이렇습니다. AI 기업들이 Wayback Machine에 보관된 과거 기사를 학습 데이터로 수집할 수 있고, 그렇게 되면 저작권료나 라이선스 협상 없이 콘텐츠가 AI 모델 안에 녹아들어 버린다는 것입니다.

실제로 어떤 AI 기업이 Wayback Machine을 통해 콘텐츠를 수집했다는 증거는 아직 확인되지 않았습니다. Advance Local은 그런 증거 없이 선제적으로 차단을 결정했다고 직접 밝혔습니다.

흥미로운 건 차단의 세부 방식입니다. The Baltimore Banner는 ChatGPT와 Claude의 크롤러는 열어두면서 인터넷 아카이브만 막았습니다. 이유는 단순했습니다. AI 검색이 기사를 인용할 때 Wayback Machine을 출처로 삼으면 원 언론사로 귀속(attribution)이 제대로 되지 않을 수 있다는 우려였습니다. “위협은 인터넷 아카이브가 아닙니다”라고 The Banner의 CTO는 말했습니다. 문제는 다른 행위자들이 얼마나 출처를 제대로 표시하느냐는 것이었죠.

The Atlantic의 입장은 더 직접적입니다. CEO Nick Thompson은 인터넷 아카이브 차단이 AI 기업과의 라이선스 협상에서 레버리지를 유지하기 위한 전략이라고 밝혔습니다. 콘텐츠가 이미 공개된 경로로 AI에 흘러들어 가면, 나중에 협상 테이블에 앉아도 카드가 없다는 논리입니다.

실제 피해는 기자와 연구자에게

문제는 이 결정의 여파가 AI 기업이 아닌 전혀 다른 곳에 떨어진다는 점입니다.

Wayback Machine의 지역 언론 아카이브를 가장 많이 사용하는 건 AI가 아니라 현직 기자들입니다. 폐간된 지역 신문의 과거 보도를 추적하거나, 수십 년 전 사건의 맥락을 파악하는 데 아카이브가 필수적이기 때문입니다. 뉴욕 북부의 한 지역 편집자는 자신이 커버하는 지역이 ‘뉴스 사막’이어서 과거 기사 아카이브에 크게 의존할 수밖에 없다고 서명 청원에서 밝혔습니다.

아카이브 보존의 공백은 이미 현실이 되고 있습니다. 2024년 매사추세츠의 두 지역지는 CMS 교체 과정에서 수천 건의 기사를 잃었고, 2022년에는 버지니아의 한 주간지가 폐간 10년 뒤 아카이브 사이트마저 내려가면서 2만 2천여 건의 기사가 영구 소실됐습니다.

미주리대 저널리즘 도서관 사서 Edward McCain은 이 차단이 “우리가 어디에서 왔고 어디로 가야 하는지를 이해하는 데 필요한 1차 자료의 핵심 연결고리를 약화시킨다”고 말했습니다.

오래된 싸움의 새로운 전선

NYU의 데이터 저널리즘 교수 Meredith Broussard는 이 상황을 “인터넷 아카이브 설립 이래 이어진 싸움의 최신 전선”으로 봅니다. ‘정보는 자유로워야 한다’는 진영과 ‘지식재산권을 보호해야 한다’는 진영의 충돌이 지금은 AI를 촉매로 다시 불붙었다는 것입니다.

인터넷 아카이브 쪽에서는 대응책을 마련하고 있습니다. 대량 다운로드를 제한하는 시스템을 도입했고, Cloudflare와 협력해 봇 활동을 모니터링하고 있습니다. 언론사들과 직접 대화도 이어가고 있습니다. 또한 Poynter, IRE와 손잡고 300개 뉴스룸을 대상으로 자체 디지털 보존 전략 교육 프로그램을 2027년까지 운영할 계획입니다.

AI가 저널리즘 생태계에 가져온 파장은 단지 기사 생성이나 자동화에만 그치지 않습니다. 누가, 어떤 방식으로 과거 기사에 접근하고 그것을 보존할 것인가라는 질문까지 다시 쓰고 있습니다.

참고자료: News publishers limit Internet Archive access due to AI scraping concerns – Nieman Lab (2026년 1월 원본 보도)

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI 스크래핑 우려로 340개 언론사가 인터넷 아카이브를 차단했다, 진짜 피해자는 따로 있다

AI를 막으려다 아카이브를 막은 이유

실제 피해는 기자와 연구자에게

오래된 싸움의 새로운 전선

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

에이전트가 줄을 써도 판정은 사람 몫이다, “아우터 루프”라는 책임론

RTX 5090은 못 돌리는 70B 모델, 미니PC는 어떻게 돌릴까

RAG가 그럴듯한 답을 내놓고도 틀리는 이유, 세 도구가 보는 방식

AI 에이전트가 매번 처음부터 시작하는 이유, 정보가 아니라 재사용의 문제였다