137,000개 사이트 분석: llms.txt 파일의 97%가 읽히지 않는다
핵심 발견
- **28%**의 도메인이 llms.txt 파일을 게시했으나, **97%**는 5월 한 달간 트래픽이 전혀 없었다.
- 실제로 읽힌 파일(3%)로 유입되는 요청의 **96%**는 봇에서 발생했다.
- **19.5%**의 AI 봇 요청이 있었지만, AI 검색 봇은 전체 요청의 1.1%에 불과했다.
조사 개요
Ahrefs Web Analytics 및 Bot Analytics를 사용하여 2026년 5월 137,210개 도메인의 서버 로그와 실시간 트래픽을 분석했다. 각 도메인 루트의 llms.txt 파일 여부를 확인하고, /llms.txt 경로로의 모든 요청을 HTTP 응답 코드(200 vs 404)별로, 채널 및 개별 사용자 에이전트로 분류했다.
llms.txt의 정의
llms.txt는 2024년 Answer.AI 및 fast.ai의 공동 창립자 Jeremy Howard가 제안한 마크다운 형식의 색인 파일로, 사이트 루트에 배치된다. 사이트를 요약하고 가장 중요한 콘텐츠에 링크하여 LLM과 에이전트가 전체를 크롤링하지 않고도 방향을 잡을 수 있도록 설계되었다. 단순히 웹페이지의 마크다운 사본을 게시하는 관행과는 다르며, robots.txt처럼 아무것도 제어하거나 차단하지 않는다.
채택 현황
28% 도메인이 llms.txt 게시
137,000개 도메인 중 28% 이상(약 38,000개)이 llms.txt를 채택했다. 주요 AI 플랫폼이 파일을 읽겠다고 공개적으로 약속하지 않았음에도 불구하고, AI 플랫폼이 향후 파일을 사용할 가능성에 대한 추측으로 인해 채택이 주도되었다.
다만 Ahrefs Web Analytics 고객들이 기술적, SEO 인식이 높은 편이므로, 28% 수치는 상한선으로 해석해야 한다.
Google의 혼재된 메시지
- Google Search는 llms.txt 없이도 생성형 AI 기능에 나타날 수 있다고 안내했다.
- 같은 시기 Chrome 팀은 Lighthouse의 실험적 "에이전트 브라우징(agentic browsing)" 감사에 llms.txt 확인 기능을 추가했으며, 파일이 없으면 에이전트가 사이트를 이해하는 데 더 많은 크롤링 시간이 걸릴 수 있다고 설명했다.
- John Mueller는 llms.txt가 "검색을 위한 것이 아니라", AI 코딩 도구가 개발자 문서를 파싱할 때 토큰을 절약할 수 있는 "임시 보조 수단"이라고 설명했다. 비개발자 사이트는 걱정할 필요가 없다고 덧붙였다.
- Mueller는 또한 로그를 확인하는 사이트 소유자가 AI 에이전트 트래픽이 거의 없을 것이라고 지적했다.
읽힌 파일의 실상
97%의 파일이 요청을 받지 않음
약 38,000개 도메인 중 97%(약 36,700개)는 5월 한 달간 llms.txt 요청이 전혀 없었다. 나머지 3%(약 1,100개)가 측정된 모든 llms.txt 트래픽을 받았다.
결론적으로, 오늘 llms.txt 파일을 게시하면 가장 가능성 높은 결과는 아무것도 파일을 가져가지 않는 것이다.
요청의 96%는 봇에서 발생
읽힌 파일들에 대한 요청 중 96%는 봇에서, 4%는 인간에서 비롯되었다. 인간 트래픽의 상당 부분은 채팅 앱에서 llms.txt 링크를 공유하는 SEO 전문가로 보이며, 슬랙봇(Slackbot)만 해도 PerplexityBot보다 llms.txt 파일을 더 많이 가져갔다. Perplexity는 llms.txt가 도움을 주도록 설계된 AI 검색 엔진 중 하나이므로, 채팅 앱의 링크 미리보기 봇이 이를 능가한다는 사실은 이 파일이 실제 AI 검색 관심을 얼마나 적게 생성하는지를 보여준다.
봇 트래픽 분류
77%의 봇이 AI 도구가 아님
llms.txt 파일을 읽는 봇 중 77%가 AI 도구가 아니다. 봇 요청을 12가지 범주로 분류한 결과:
상위 범주 (AI가 아닌 봇)
- SEO 감사 도구(21.7%): SiteAuditBot, WebPageTestAuditing 등이 전통적 SEO 상태 확인을 수행
- 기타 및 미식별(14.9%): 익명 SDK 기본값 및 목적을 알 수 없는 봇(node, satoric-indexer 등)
- 일반 웹 크롤러(13.1%): Googlebot, Amazonbot 등이 검색 및 상품 검색용 웹 인덱싱
- 기술 프로파일링 도구(11.6%): BuiltWith, Dataprovider 등이 기술 스택 및 비즈니스 인텔리전스 데이터 식별
Chrome Lighthouse llms.txt 감사는 약 1,000개 중 1개 정도의 요청(22개)만 생성했다.
19.5%의 AI 봇이 파일을 수신
실제 도달한 요청 중 명명된 AI 봇이 19.5%를 차지하며, 개별적으로는 어떤 AI 봇 범주도 상위 4개에 포함되지 않는다. 그러나 네 가지 AI 범주(훈련 크롤러, 검색 봇, 어시스턴트, 에이전트)를 합치면 AI 봇이 단일 범주 중 가장 큰 집합이 된다.
AI 봇 세부 구성:
- AI 에이전트 및 에이전트 인프라(10.5%): 사용자를 대신해 행동하거나 에이전트를 지원하기 위해 크롤링하는 Claude-Code, IbouBot 등. AI 봇 중 가장 큰 단일 범주로, AI 검색 봇보다 더 많이 llms.txt를 가져간다.
- AI 훈련 크롤러(5.3%): GPTBot, ClaudeBot 등이 모델 구축용 데이터 수집. AI 검색 검색 봇의 약 5배 정도로 llms.txt를 가져가며, GPTBot이 훈련 크롤러 중 압도적으로 가장 많이 가져간다. Gemini 크롤러는 존재하지 않으며, Google은 일반 Googlebot 및 Google-Extended로 Gemini를 훈련 및 근거한다.
- AI 어시스턴트(2.5%): ChatGPT-User, Claude-User 등이 사용자 쿼리에 응해 웹 탐색
- AI 검색 봇(1.1%): OAI-SearchBot, PerplexityBot 등이 AI 검색 제품의 실시간 사용자 쿼리에 답변하기 위해 페이지 가져오기. AI 검색 시각성 향상 목표로 llms.txt를 구성한다면 재고해야 할 결과.
유의할 점: 이 분석은 요청을 받은 3%의 파일만 다루며, 전체 137,000개 도메인이 아니다. 이는 약 1,100개 도메인과 22,000개 요청만 대상으로 한다. 또한 "가져갔다"는 것이 "읽었다"를 의미하지 않는다. 많은 봇이 llms.txt를 가져갔어도 내용을 행동으로 옮기지 않을 수 있다.
찾지 않는 AI 봇들
AI 봇은 존재하지 않는 llms.txt 파일을 찾지 않는다. /llms.txt 경로에 대한 404 반응을 분석한 결과, 유효한 파일은 96%의 봇 트래픽을 받은 반면, 누락된 파일은 98%의 인간 트래픽을 받았고 AI 봇 비율은 0%였다. 부재한 llms.txt 파일을 탐사하는 사람들은 브라우저에 URL을 입력하는 인간이었으며, 아마도 경쟁사를 확인하는 SEO 전문가로 추정된다.
이는 AI 시스템이 llms.txt 파일을 적극적으로 찾으며, 파일이 없는 사이트가 놓친 기회라는 가정을 무효화한다. AI 도구는 링크, 색인 또는 사용자 지시가 파일의 존재를 알려줄 때만 llms.txt를 가져간다.
llms.txt 연구 및 감사 생태계
12%의 요청이 llms.txt를 사용하지 않고 감사, 점수 매김, 검증 및 연구를 하는 도구에서 발생했다.
GEO/AEO 도구(5.8%): Cairrot(WordPress 전용 AEO 플랫폼), Framer, Lovable, Wix 같은 주류 웹사이트 빌더가 제품에 AI 준비도 확인 기능을 내장하고 있다. 사이트 소유자 결정보다 먼저 llms.txt 채택이 플랫폼 기본값이 되었다.
llms.txt 발견 가능성 봇(3.6%): llms.txt 파일을 카탈로그하는 전용 스캐너, 검증기, 디렉토리들이 AI 검색 봇과 AI 어시스턴트보다 더 많은 요청을 보낸다.
연구 봇(2.7%): 가장 큰 단일 연구 크롤러는 자신을 "prompt-injection-survey/1.0"으로 식별한다. 누군가 llms.txt를 AI 에이전트가 인지하고 신뢰하도록 설계된 프롬프트 인젝션 기회로 체계적으로 연구하고 있다. 에이전트가 대규모로 llms.txt 파일을 신뢰할 경우의 보안 의미는 거의 논의되지 않았으나, 잠재적 악의 행위자들은 이미 움직이고 있다.
의사결정 가이드: llms.txt를 만들어야 하는가?
찬성
- 비용이 저렴하다: Wix 같은 플랫폼이 점점 더 자동으로 생성한다.
- 의도된 대상층을 찾았을 수 있다: 코딩 에이전트. 고객이 Claude Code를 사용하거나 에이전트가 사이트에서 작동하면 파일이 읽힐 실제 기회가 있다.
- 향후 대비할 수 있다: Google이 검색의 미래는 에이전트라고 명확히 했다. 에이전트가 검색을 중개하게 되면 llms.txt는 에이전트 계층을 통해 AI 시각성에 영향을 미칠 수 있다.
반대
- 기본율이 참혹하다: 97%의 기존 llms.txt 파일이 어떤 독자도 끌어오지 못한다.
- AI 검색 시각성에 도움이 되지 않는다: AI 검색 봇이 거의 파일을 가져가지 않으며, 어떤 AI 시스템도 게시하지 않은 파일을 찾지 않는다.
- 절반의 일만 하면 안 된다: 에이전트는 지시받거나 추측하지 않으면 링크되지 않은 파일을 가져갈 가능성이 낮다.
- 보안 위험이다: 에이전트는 이 파일을 신뢰하도록 구축되었으며, 잠재적 악의 행위자가 이미 프롬프트 인젝션을 탐사하고 있다. 오래되거나 손상된 파일은 이를 읽는 모든 에이전트를 오도한다.
권장 사항
검토할 가치가 있다면:
-
먼저 자신의 로그 확인: 97%의 무열람 기본율을 고려하라.
-
웹사이트 구축 플랫폼에 맡기기: Wix는 이미 생성하고 있으며, Framer와 Lovable이 스캔하고 있다. 1년 내 llms.txt를 갖는 것이 sitemap 보유만큼 CMS 기본값이 될 것 같다. 보상이 불확실하면 노력을 최소화하는 것이 합리적이다.
-
에이전트를 파일로 라우팅하기: HTML에서 파일에 링크하거나, 문서에서 참조하거나, 에이전트가 사이트에 관한 지시를 받는 어디든 언급하자. 에이전트는 추측이 아닌 지시를 받을 때 llms.txt를 가져간다.
-
프롬프트 인젝션 위험 상쇄: llms.txt를 코드처럼 취급하자. 버전 제어, 편집 권한 제한, 무단 변경에 대한 알림 설정, 콘텐츠를 일반 링크와 설명으로 제한(명령과 같은 형태 금지), 제어하는 자원에만 링크, 플랫폼이 자동으로 생성하는 모든 것 검토.
결론
ChatGPT, Perplexity 또는 AI Overview에 나타나는 것이 목표라면, llms.txt 파일은 대부분 장식일 뿐이다. AI 검색 봇이 거의 가져가지 않으며, 어떤 AI 시스템도 게시하지 않은 파일을 찾지 않고, 97%의 기존 파일이 어떤 독자도 끌어오지 못한다. AI 검색 시각성을 향상시키려면 더 확실한 방법이 있다.
Mueller는 llms.txt를 임시 보조 수단이라고 했으나, 그 보조 수단은 실제 "독자"가 나타나기도 전에 이미 자신의 공급망을 갖추고 있다: llms.txt 파일을 생성하는 플랫폼, 이를 감시하는 산업, 이를 연구하는 보안 연구자들. 우리는 실제 표준의 초기 골조를 보고 있거나 SEO 산업이 뭐든 상품화할 수 있다는 것을 증명하는 것을 보고 있거나 둘 다를 보고 있을 것이다.
추가 연구 필요 영역
이 조사는 llms.txt를 게시하는 사이트 수와 읽는 것이 누구인지 답변하지만, 추가 연구 가치가 있는 질문도 있다.
- 에이전트가 개발자 문서를 더 자주 가져가는가? Claude-Code의 llms.txt 관심이 Mueller의 설명대로 /docs/와 /api/ 같은 문서 경로에 집중되어 있는가?
- 봇이 읽은 것을 실제로 행동으로 옮기는가? AI 에이전트가 llms.txt를 가져가면, 파일이 링크하는 자원을 가져가는가? SEO 컨설턴트 David McSweeney(Queryburst 창립자)는 이미 실험을 진행 중이다. 그는 AI 사용자 에이전트에게 압축된 에이전트 친화적 사이트 요약을 제공하고 있으며, 깊이 있는 콘텐츠를 요청하기 위한 지시를 포함하며, 어떤 에이전트라도 실제로 따라오는지 추적하고 있다.