← 목록으로

Common Crawl의 LLM 학습 데이터 논쟁: 웹그래프와 도메인 권위의 관계

SEOmetehanai.substack.com조회수 0153일 전

핵심

Common Crawl은 17년간 웹을 수집해온 비영리단체로, 2020년 GPT-3 출시 이후 대부분의 대형언어모델(LLM) 학습 데이터의 주요 기반이 되었다. 2025년 11월 The Atlantic의 보도로 그것이 퍼블리셔들의 유료 콘텐츠를 수집하고 있었다는 사실이 드러나면서 논쟁의 중심이 됐다.

Common Crawl 논쟁의 핵심 사항

유료 콘텐츠 수집 방식

삭제 요청 미이행

검색 도구의 오류

Common Crawl의 입장

봇 차단 현황

LLM 학습 데이터에서 Common Crawl의 역할

Mozilla Foundation의 2024년 보고서("Training Data for the Price of a Sandwich")가 가장 포괄적인 분석을 제시했다.

주요 수치

크롤링 우선순위 메커니즘

필터링의 문제점

Google C4 데이터셋의 내용(Washington Post 분석, 2023)

자금 지원 변화

15년간 설립자 Gil Elbaz의 가족 신탁 기금만으로 운영되다가, 2023년부터 AI 기업들의 기부를 받기 시작했다:

LLM의 실제 인용 패턴

150,000개 이상의 인용 분석(5,000개 키워드 기준)

| 도메인 | 인용 빈도 | |--------|---------| | Reddit | 40.1% | | Wikipedia | 26.3% | | Google | 23% | | YouTube | 23% |

Reddit의 지배력은 2024년 초 Google의 Reddit에 대한 $6,000만 규모 API 라이선싱 계약을 반영한 것으로 보인다.

680억 개의 인용 추적(ChatGPT, Google AI Overviews, Perplexity 대상, 가장 규모가 큰 분석)

ChatGPT

Perplexity

Google AI Overviews

전체 플랫폼 분석(517만 개 인용, 907,003개 고유 도메인)

LLM 인용에 영향을 미치는 요소

확인된 요소

가능성 있는 기여 요소

Common Crawl 웹그래프 데이터

Common Crawl은 웹페이지를 보존할 뿐 아니라 매달 94~163백만 개 도메인에 대한 도메인 권위 지표를 발표한다.

공개된 지표

이것은 Common Crawl이 어떤 도메인을 더 자주 크롤링할지 결정하는 데 내부적으로 사용하는 데이터이며, 공개적으로 이용 가능하다.

미해결 연구 질문

  1. 학습 데이터 구성: CC가 높은 HC 도메인을 우선적으로 크롤링한다면, 이러한 도메인이 학습 데이터에서 더 자주 나타나 LLM에 특정 출처에 대한 기본적인 친숙성을 만드는가?

  2. 상관관계 vs. 인과관계: CC 웹그래프에서 가장 높은 순위의 도메인(Facebook, Google, YouTube, Wikipedia)이 LLM이 가장 자주 인용하는 도메인이기도 한데, 이는 다음 중 어디 때문인가?

    • 이들이 정말로 권위 있기 때문(주된 요소로 보임)
    • 학습 데이터에서 과대 대표되었기 때문(가능성 있는 기여 요소)
    • 실시간 검색에서 좋은 성과를 내기 때문(확인된 요소)
    • 위 모든 요소
  3. 롱테일 문제: Mozilla가 Common Crawl의 크롤링이 "디지털로 소외된 커뮤니티"를 과소 대표한다고 지적했다. 도메인이 CC의 롱테일에 있다면(607백만 도메인 중 100만 순위 초과), 콘텐츠 품질과 무관하게 인용이 어려워지는 상관관계가 있는가?

  4. 권위 기준값: LLM이 콘텐츠가 우수하고 신선하더라도 특정 최소 도메인 권위 수준 아래의 출처를 거의 인용하지 않는 기준값이 있는가?

CC Rank Checker 도구

저자가 만든 무료 도구(https://webgraph.metehan.ai)는 Common Crawl의 웹그래프 데이터를 접근 가능하게 한다.

기능

최신 웹그래프의 상위 15개 도메인(2025년 10월-12월)

주목할 만한 관찰:

활용 방법

도메인 권위의 역할에 대한 평가

저자는 CC 권위가 LLM 인용의 주요 동인이라고 주장하지 않는다. 연구가 콘텐츠 신선도, 관련성, 플랫폼별 요소의 중요성을 보여준다. 다만 도메인 권위가 어느 정도는 영향을 미칠 가능성이 있다.

권위도 무시하지 말 것: 콘텐츠와 신선도가 가장 중요하지만, 도메인 수준의 신호도 전체 그림에 기여할 가능성이 있다.

여러 지표 추적: CC 순위는 하나의 데이터 포인트일 뿐이지, 특효약은 아니지만 벤치마킹에 유용하다.

플랫폼 차이 이해: Wikipedia가 ChatGPT를 지배하고, Reddit이 Perplexity와 Google AI Overviews를 지배한다. 그에 맞춰 최적화하라.

롱테일 질문: 도메인이 CC에서 100만 순위 초과라면, 특정 분야에서 이것이 인용의 어려움과 상관관계가 있는지 조사할 가치가 있다.

더 많은 연구 필요: CC 권위와 LLM 인용 간의 관계는 엄격한 실증 연구를 요한다.

더 큰 맥락

Common Crawl 논쟁은 저작권과 페이월을 넘어선다. AI의 지식 기반을 이해하는 것, 그리고 특정 출처에 대한 AI의 편향 가능성을 이해하는 것에 관한 것이다.

알고 있는 것

알지 못하는 것