28%의 사이트가 이미 llms.txt 파일을 만들었습니다. AI 검색 노출을 기대하면서요. 그런데 Ahrefs가 137,000개 도메인의 실제 서버 로그를 들여다보니, 그중 97%는 지난 한 달 동안 단 한 번도 읽히지 않았습니다.

SEO 툴 Ahrefs가 자사 Web Analytics와 Bot Analytics 데이터를 바탕으로 137,000개 도메인을 분석해 llms.txt의 실제 활용 현황을 공개했습니다. 아무 봇도, 아무 AI도, 아무것도 읽지 않은 파일이 전체의 97%였습니다.
출처: We Analyzed 137K Sites: 97% of llms.txt Files Never Get Read – Ahrefs Blog
llms.txt가 뭔지부터 짚고 가자면
llms.txt는 사이트 루트에 두는 마크다운 형식의 인덱스 파일입니다. 2024년 Answer.AI 공동창업자 Jeremy Howard가 제안했고, 사이트의 핵심 정보와 주요 콘텐츠 링크를 담아 LLM이나 AI 에이전트가 사이트 전체를 크롤링하지 않고도 빠르게 파악할 수 있도록 돕는다는 개념입니다.
여기서 흔히 헷갈리는 두 가지가 있습니다. 웹페이지를 마크다운으로 복제해 두는 것과는 다르고, robots.txt처럼 크롤링을 제어하는 파일도 아닙니다. 아무것도 막지 않고, 아무것도 강제하지 않습니다.
그런데도 AI 검색 최적화 도구들이 “llms.txt가 있어야 AI에 노출된다”는 프레이밍을 붙이면서 채택이 빠르게 확산됐습니다. 어떤 주요 AI 플랫폼도 이 파일을 읽겠다고 공식 발표한 적이 없는데도요.
실제로 누가 읽나
트래픽이 있는 3%의 파일(약 1,100개 도메인)에서 수집한 요청을 분류해 보면, AI 봇이 차지하는 비율은 19.5%입니다. 절반도 안 됩니다.
나머지 80%는 무엇이냐면, SEO 감사 툴(21.7%), 정체불명의 크롤러(14.9%), 일반 웹 크롤러(13.1%), 기술 스택 파악용 툴(11.6%) 순입니다.
흥미로운 지점이 있습니다. Perplexity는 AI 검색 엔진 중 llms.txt를 가장 활용할 것 같은 서비스인데, Slackbot이 Perplexity보다 더 많이 읽었습니다. 채팅 앱이 링크 미리보기를 불러오면서 생긴 트래픽이 AI 검색 봇보다 많은 겁니다.
AI 봇 19.5% 안을 더 들여다보면 구도가 뚜렷합니다.
- AI 에이전트 및 에이전트 인프라: 10.5%
- AI 학습 크롤러: 5.3%
- AI 어시스턴트: 2.5%
- AI 검색 봇: 1.1%
가장 많이 읽는 건 AI 검색봇이 아니라 코딩 에이전트입니다. GPTBot이 1위이고, Claude-Code가 그 뒤를 잇습니다. Perplexity나 ChatGPT 검색처럼 AI 검색 결과에 사이트를 노출시켜줄 검색 봇은 전체의 1.1%에 불과합니다.
AI 봇은 파일을 찾아다니지 않는다
Ahrefs는 llms.txt가 없는 사이트(404 반환)에 누가 접근하는지도 분석했습니다. 결과에서 AI 봇은 한 건도 없었습니다.
이게 의미하는 바는 명확합니다. AI 봇이 llms.txt를 읽는 건 파일이 존재한다는 걸 이미 알고 있을 때뿐입니다. “혹시 있나?” 하고 먼저 찾아오는 AI 봇은 없습니다. 파일을 만들지 않는다고 AI 검색에서 불이익을 받는 구조가 아닌 거죠.
404 경로를 두드린 건 거의 사람(98%)이었는데, 경쟁사 llms.txt를 직접 URL 입력해서 확인하는 SEO 담당자들로 보입니다.
그래서 이 파일은 무엇인가
Ahrefs의 결론은 명확합니다. ChatGPT나 Perplexity, AI Overviews에 노출되는 게 목적이라면, llms.txt는 거의 효과가 없습니다.
반면 의미가 있는 경우가 있습니다. 고객이나 사용자가 Claude Code 같은 코딩 에이전트를 통해 사이트 정보에 접근하는 경우, 또는 에이전트가 실제로 사이트를 탐색하도록 설계된 서비스라면 이야기가 달라집니다.
Google의 존 뮬러도 llms.txt를 “임시방편”으로 규정했습니다. 개발자 문서를 파싱하는 AI 코딩 도구에게 토큰을 아끼도록 돕는 용도라는 설명입니다. AI 검색 최적화 수단으로 보지 않는다고도 못 박았습니다.
한 가지 예상 밖의 발견은 보안 위험입니다. 프롬프트 인젝션을 목적으로 llms.txt를 스캔하는 봇이 이미 확인됐습니다. 에이전트는 이 파일을 신뢰하도록 설계되어 있어서, 파일 내용이 오염되면 에이전트가 그대로 따를 수 있습니다.
llms.txt를 둘러싼 생태계는 이미 생겼습니다. 파일을 생성해주는 플랫폼, 감사해주는 툴, 연구하는 봇들이 존재합니다. 정작 읽는 주체가 나타나기 전에 공급망이 먼저 완성된 셈입니다.
참고자료: Google’s AI Optimization Guide – Google Search Central

답글 남기기