본문 바로가기
← 목록으로

137,000개 사이트 분석: llms.txt 파일의 97%가 읽히지 않는다

ahrefs.com조회수 07일 전

핵심 발견

조사 개요

Ahrefs Web Analytics 및 Bot Analytics를 사용하여 2026년 5월 137,210개 도메인의 서버 로그와 실시간 트래픽을 분석했다. 각 도메인 루트의 llms.txt 파일 여부를 확인하고, /llms.txt 경로로의 모든 요청을 HTTP 응답 코드(200 vs 404)별로, 채널 및 개별 사용자 에이전트로 분류했다.

llms.txt의 정의

llms.txt는 2024년 Answer.AI 및 fast.ai의 공동 창립자 Jeremy Howard가 제안한 마크다운 형식의 색인 파일로, 사이트 루트에 배치된다. 사이트를 요약하고 가장 중요한 콘텐츠에 링크하여 LLM과 에이전트가 전체를 크롤링하지 않고도 방향을 잡을 수 있도록 설계되었다. 단순히 웹페이지의 마크다운 사본을 게시하는 관행과는 다르며, robots.txt처럼 아무것도 제어하거나 차단하지 않는다.

채택 현황

28% 도메인이 llms.txt 게시

137,000개 도메인 중 28% 이상(약 38,000개)이 llms.txt를 채택했다. 주요 AI 플랫폼이 파일을 읽겠다고 공개적으로 약속하지 않았음에도 불구하고, AI 플랫폼이 향후 파일을 사용할 가능성에 대한 추측으로 인해 채택이 주도되었다.

다만 Ahrefs Web Analytics 고객들이 기술적, SEO 인식이 높은 편이므로, 28% 수치는 상한선으로 해석해야 한다.

Google의 혼재된 메시지

읽힌 파일의 실상

97%의 파일이 요청을 받지 않음

약 38,000개 도메인 중 97%(약 36,700개)는 5월 한 달간 llms.txt 요청이 전혀 없었다. 나머지 3%(약 1,100개)가 측정된 모든 llms.txt 트래픽을 받았다.

결론적으로, 오늘 llms.txt 파일을 게시하면 가장 가능성 높은 결과는 아무것도 파일을 가져가지 않는 것이다.

요청의 96%는 봇에서 발생

읽힌 파일들에 대한 요청 중 96%는 봇에서, 4%는 인간에서 비롯되었다. 인간 트래픽의 상당 부분은 채팅 앱에서 llms.txt 링크를 공유하는 SEO 전문가로 보이며, 슬랙봇(Slackbot)만 해도 PerplexityBot보다 llms.txt 파일을 더 많이 가져갔다. Perplexity는 llms.txt가 도움을 주도록 설계된 AI 검색 엔진 중 하나이므로, 채팅 앱의 링크 미리보기 봇이 이를 능가한다는 사실은 이 파일이 실제 AI 검색 관심을 얼마나 적게 생성하는지를 보여준다.

봇 트래픽 분류

77%의 봇이 AI 도구가 아님

llms.txt 파일을 읽는 봇 중 77%가 AI 도구가 아니다. 봇 요청을 12가지 범주로 분류한 결과:

상위 범주 (AI가 아닌 봇)

Chrome Lighthouse llms.txt 감사는 약 1,000개 중 1개 정도의 요청(22개)만 생성했다.

19.5%의 AI 봇이 파일을 수신

실제 도달한 요청 중 명명된 AI 봇이 19.5%를 차지하며, 개별적으로는 어떤 AI 봇 범주도 상위 4개에 포함되지 않는다. 그러나 네 가지 AI 범주(훈련 크롤러, 검색 봇, 어시스턴트, 에이전트)를 합치면 AI 봇이 단일 범주 중 가장 큰 집합이 된다.

AI 봇 세부 구성:

유의할 점: 이 분석은 요청을 받은 3%의 파일만 다루며, 전체 137,000개 도메인이 아니다. 이는 약 1,100개 도메인과 22,000개 요청만 대상으로 한다. 또한 "가져갔다"는 것이 "읽었다"를 의미하지 않는다. 많은 봇이 llms.txt를 가져갔어도 내용을 행동으로 옮기지 않을 수 있다.

찾지 않는 AI 봇들

AI 봇은 존재하지 않는 llms.txt 파일을 찾지 않는다. /llms.txt 경로에 대한 404 반응을 분석한 결과, 유효한 파일은 96%의 봇 트래픽을 받은 반면, 누락된 파일은 98%의 인간 트래픽을 받았고 AI 봇 비율은 0%였다. 부재한 llms.txt 파일을 탐사하는 사람들은 브라우저에 URL을 입력하는 인간이었으며, 아마도 경쟁사를 확인하는 SEO 전문가로 추정된다.

이는 AI 시스템이 llms.txt 파일을 적극적으로 찾으며, 파일이 없는 사이트가 놓친 기회라는 가정을 무효화한다. AI 도구는 링크, 색인 또는 사용자 지시가 파일의 존재를 알려줄 때만 llms.txt를 가져간다.

llms.txt 연구 및 감사 생태계

12%의 요청이 llms.txt를 사용하지 않고 감사, 점수 매김, 검증 및 연구를 하는 도구에서 발생했다.

GEO/AEO 도구(5.8%): Cairrot(WordPress 전용 AEO 플랫폼), Framer, Lovable, Wix 같은 주류 웹사이트 빌더가 제품에 AI 준비도 확인 기능을 내장하고 있다. 사이트 소유자 결정보다 먼저 llms.txt 채택이 플랫폼 기본값이 되었다.

llms.txt 발견 가능성 봇(3.6%): llms.txt 파일을 카탈로그하는 전용 스캐너, 검증기, 디렉토리들이 AI 검색 봇과 AI 어시스턴트보다 더 많은 요청을 보낸다.

연구 봇(2.7%): 가장 큰 단일 연구 크롤러는 자신을 "prompt-injection-survey/1.0"으로 식별한다. 누군가 llms.txt를 AI 에이전트가 인지하고 신뢰하도록 설계된 프롬프트 인젝션 기회로 체계적으로 연구하고 있다. 에이전트가 대규모로 llms.txt 파일을 신뢰할 경우의 보안 의미는 거의 논의되지 않았으나, 잠재적 악의 행위자들은 이미 움직이고 있다.

의사결정 가이드: llms.txt를 만들어야 하는가?

찬성

반대

권장 사항

검토할 가치가 있다면:

  1. 먼저 자신의 로그 확인: 97%의 무열람 기본율을 고려하라.

  2. 웹사이트 구축 플랫폼에 맡기기: Wix는 이미 생성하고 있으며, Framer와 Lovable이 스캔하고 있다. 1년 내 llms.txt를 갖는 것이 sitemap 보유만큼 CMS 기본값이 될 것 같다. 보상이 불확실하면 노력을 최소화하는 것이 합리적이다.

  3. 에이전트를 파일로 라우팅하기: HTML에서 파일에 링크하거나, 문서에서 참조하거나, 에이전트가 사이트에 관한 지시를 받는 어디든 언급하자. 에이전트는 추측이 아닌 지시를 받을 때 llms.txt를 가져간다.

  4. 프롬프트 인젝션 위험 상쇄: llms.txt를 코드처럼 취급하자. 버전 제어, 편집 권한 제한, 무단 변경에 대한 알림 설정, 콘텐츠를 일반 링크와 설명으로 제한(명령과 같은 형태 금지), 제어하는 자원에만 링크, 플랫폼이 자동으로 생성하는 모든 것 검토.

결론

ChatGPT, Perplexity 또는 AI Overview에 나타나는 것이 목표라면, llms.txt 파일은 대부분 장식일 뿐이다. AI 검색 봇이 거의 가져가지 않으며, 어떤 AI 시스템도 게시하지 않은 파일을 찾지 않고, 97%의 기존 파일이 어떤 독자도 끌어오지 못한다. AI 검색 시각성을 향상시키려면 더 확실한 방법이 있다.

Mueller는 llms.txt를 임시 보조 수단이라고 했으나, 그 보조 수단은 실제 "독자"가 나타나기도 전에 이미 자신의 공급망을 갖추고 있다: llms.txt 파일을 생성하는 플랫폼, 이를 감시하는 산업, 이를 연구하는 보안 연구자들. 우리는 실제 표준의 초기 골조를 보고 있거나 SEO 산업이 뭐든 상품화할 수 있다는 것을 증명하는 것을 보고 있거나 둘 다를 보고 있을 것이다.

추가 연구 필요 영역

이 조사는 llms.txt를 게시하는 사이트 수와 읽는 것이 누구인지 답변하지만, 추가 연구 가치가 있는 질문도 있다.