Common Crawl의 LLM 학습 데이터 논쟁: 웹그래프와 도메인 권위의 관계

metehanai.substack.com조회수 3198일 전

핵심

Common Crawl은 17년간 웹을 수집해온 비영리단체로, 2020년 GPT-3 출시 이후 대부분의 대형언어모델(LLM) 학습 데이터의 주요 기반이 되었다. 2025년 11월 The Atlantic의 보도로 그것이 퍼블리셔들의 유료 콘텐츠를 수집하고 있었다는 사실이 드러나면서 논쟁의 중심이 됐다.

Common Crawl 논쟁의 핵심 사항

유료 콘텐츠 수집 방식

뉴스 사이트들은 JavaScript가 구독 여부를 확인하기 전에 기사 전문을 잠깐 표시한다. Common Crawl의 수집 봇은 이 JavaScript를 실행하지 않아 전체 기사를 캡처한다.
뉴욕타임스, 월스트리트저널, 이코노미스트, 뉴요커, 하퍼스, The Atlantic 등 주요 출판사로부터 수백만 개의 기사가 아카이브에 포함되어 있다.

삭제 요청 미이행

뉴욕타임스(2023년 7월)와 덴마크 저작권연합(2024년 7월)이 콘텐츠 삭제를 요청했으나, 이러한 요청이 이행된 흔적이 없다.
아카이브 파일들은 2016년 이후 수정되지 않았다.

검색 도구의 오류

Common Crawl의 공개 검색 기능은 nytimes.com 같은 도메인에서 "캡처 없음"을 반환하지만, 실제로는 이들 도메인의 기사가 아카이브에 존재한다.
1,000개 이상의 도메인이 잘못된 검색 결과를 나타내고 있으며, 대부분 삭제를 요청한 퍼블리셔들에 속한다.

Common Crawl의 입장

집행이사 Rich Skrenta는 "로봇도 사람이다"와 "인터넷에 올리기 싫었다면 올리지 말았어야 한다"는 발언을 했다.
공식 반박: CCBot은 공개적으로 접근 가능한 웹페이지에서만 데이터를 수집하며, 페이월을 우회하거나 로그인을 시도하지 않는다고 주장했다.
아카이브의 파일 형식이 "불변(immutable)"이기 때문에 콘텐츠를 삭제할 수 없다고 설명했다.

봇 차단 현황

상위 1,000개 웹사이트 중 CCBot이 가장 광범위하게 차단되는 크롤러가 되었으며, 심지어 OpenAI의 GPTBot도 능가한다.

LLM 학습 데이터에서 Common Crawl의 역할

Mozilla Foundation의 2024년 보고서("Training Data for the Price of a Sandwich")가 가장 포괄적인 분석을 제시했다.

주요 수치

분석한 47개 LLM 중 64%가 필터링된 Common Crawl 버전을 사용했다(2019-2023).
GPT-3: 토큰의 80% 이상이 필터링된 Common Crawl 데이터에서 나왔다.
아카이브 규모: 95개 이상의 페타바이트로 수십억 개의 웹페이지를 포함한다.
학술 영향: 10,000개 이상의 논문이 Common Crawl을 인용했다.

크롤링 우선순위 메커니즘

Common Crawl은 조화중앙성(Harmonic Centrality, HC) 지표를 사용해 도메인을 우선순위 지정한다. 이는 도메인이 웹의 링크 그래프에서 다른 모든 도메인에 얼마나 "가까운지"를 측정한다.
높은 점수를 받은 도메인이 더 자주 크롤링된다.
결과: 낮은 중앙성 점수를 가진 도메인("디지털로 소외된 커뮤니티" 포함)은 포함될 가능성이 낮다.

필터링의 문제점

Google의 C4와 EleutherAI의 Pile-CC 같은 인기 필터링 버전들이 "단순한 자동 필터링"을 사용해 소수 커뮤니티의 비독성 콘텐츠를 제거하면서도 문제성 콘텐츠는 그대로 둔다.

Google C4 데이터셋의 내용(Washington Post 분석, 2023)

1,500만 개 웹사이트가 포함되어 있다.
상위 출처: patents.google.com, nytimes.com(4위), theguardian.com(7위)
또한 포함: RT.com(65위), Breitbart(159위), vdare.com(993위)
개인 블로그, 유권자 등록 데이터베이스, 저작권 콘텐츠도 존재한다.
많은 기업들이 학습 데이터의 내용을 문서화하지 않는다.

자금 지원 변화

15년간 설립자 Gil Elbaz의 가족 신탁 기금만으로 운영되다가, 2023년부터 AI 기업들의 기부를 받기 시작했다:

OpenAI: $250,000
Anthropic: $250,000
NVIDIA: "협력자" 지정
Amazon Web Services: 데이터 호스팅 후원

LLM의 실제 인용 패턴

150,000개 이상의 인용 분석(5,000개 키워드 기준)

| 도메인 | 인용 빈도 | |--------|---------| | Reddit | 40.1% | | Wikipedia | 26.3% | | Google | 23% | | YouTube | 23% |

Reddit의 지배력은 2024년 초 Google의 Reddit에 대한 $6,000만 규모 API 라이선싱 계약을 반영한 것으로 보인다.

680억 개의 인용 추적(ChatGPT, Google AI Overviews, Perplexity 대상, 가장 규모가 큰 분석)

ChatGPT

Wikipedia: 전체 인용의 7.8%
상위 10개 출처 중 Wikipedia가 47.9%를 차지
신뢰할 수 있는 지식 기반에 강한 선호도

Perplexity

Reddit: 전체 인용의 6.6%
커뮤니티 중심의 콘텐츠와 실시간 출처에 강조

Google AI Overviews

Reddit: 인용의 2.2%
더 균형잡힌 혼합: 상위 10개 중 Reddit(21%), YouTube(18.8%), Quora(14.3%)

전체 플랫폼 분석(517만 개 인용, 907,003개 고유 도메인)

.com 도메인: 모든 인용의 80.41%
.org 도메인: 11.29%
결론: "LLM 인용은 제도 권위보다는 공개 웹의 구조를 반영한다"

LLM 인용에 영향을 미치는 요소

확인된 요소

콘텐츠의 신선도와 최근성(인용 출처 중 40-60%가 매월 변경됨)
쿼리(질문)에 대한 의미론적 관련성
구조화된 데이터와 포맷팅
크로스 플랫폼 존재감과 브랜드 언급
플랫폼별 검색 선호도

가능성 있는 기여 요소

학습 데이터에서 도메인 나타나는 빈도
모델이 외운 지식(parametric knowledge)에 포함된 권위 신호
브랜드 검색량과 엔터티(개체) 인식
신선도 요소가 중요: LLM은 정적이 아니라 실시간 검색 기반으로 인용 출처를 계속 업데이트한다.

Common Crawl 웹그래프 데이터

Common Crawl은 웹페이지를 보존할 뿐 아니라 매달 94~163백만 개 도메인에 대한 도메인 권위 지표를 발표한다.

공개된 지표

조화중앙성(HC): 도메인이 링크 그래프의 다른 모든 도메인에 얼마나 "가까운지"
PageRank: 들어오는 링크의 질과 수량에 기반한 권위

이것은 Common Crawl이 어떤 도메인을 더 자주 크롤링할지 결정하는 데 내부적으로 사용하는 데이터이며, 공개적으로 이용 가능하다.

미해결 연구 질문

학습 데이터 구성: CC가 높은 HC 도메인을 우선적으로 크롤링한다면, 이러한 도메인이 학습 데이터에서 더 자주 나타나 LLM에 특정 출처에 대한 기본적인 친숙성을 만드는가?
상관관계 vs. 인과관계: CC 웹그래프에서 가장 높은 순위의 도메인(Facebook, Google, YouTube, Wikipedia)이 LLM이 가장 자주 인용하는 도메인이기도 한데, 이는 다음 중 어디 때문인가?
- 이들이 정말로 권위 있기 때문(주된 요소로 보임)
- 학습 데이터에서 과대 대표되었기 때문(가능성 있는 기여 요소)
- 실시간 검색에서 좋은 성과를 내기 때문(확인된 요소)
- 위 모든 요소
롱테일 문제: Mozilla가 Common Crawl의 크롤링이 "디지털로 소외된 커뮤니티"를 과소 대표한다고 지적했다. 도메인이 CC의 롱테일에 있다면(607백만 도메인 중 100만 순위 초과), 콘텐츠 품질과 무관하게 인용이 어려워지는 상관관계가 있는가?
권위 기준값: LLM이 콘텐츠가 우수하고 신선하더라도 특정 최소 도메인 권위 수준 아래의 출처를 거의 인용하지 않는 기준값이 있는가?

CC Rank Checker 도구

저자가 만든 무료 도구(https://webgraph.metehan.ai)는 Common Crawl의 웹그래프 데이터를 접근 가능하게 한다.

기능

607백만 도메인 중 어떤 도메인의 HC 순위와 PageRank 확인
5개 시간대(2023-2025)에 걸친 순위 기록 조회
시간 경과에 따른 권위 변화 추적
최대 10개 도메인 동시 비교
상위 1,000개 도메인 탐색

최신 웹그래프의 상위 15개 도메인(2025년 10월-12월)

주목할 만한 관찰:

Wikipedia는 조화중앙성 순위에서 14위지만 PageRank에서는 37위인데도, ChatGPT에서 가장 인용되는 출처(전체 인용의 7.8%)다.
CDN과 인프라 도메인(gstatic, cloudflare, jsdelivr)은 수백만 개 사이트에 임베드되어 있어 매우 높은 순위를 차지한다.
소셜 플랫폼이 상위 10개를 지배한다.

활용 방법

경쟁사와 도메인 비교
시간 경과에 따른 권위 추이 추적(성장 또는 하락 중인가?)
CC 순위와 특정 분야의 인용 빈도 간 상관관계 조사
콘텐츠 최적화만으로는 해결할 수 없는 권위 격차 파악

도메인 권위의 역할에 대한 평가

저자는 CC 권위가 LLM 인용의 주요 동인이라고 주장하지 않는다. 연구가 콘텐츠 신선도, 관련성, 플랫폼별 요소의 중요성을 보여준다. 다만 도메인 권위가 어느 정도는 영향을 미칠 가능성이 있다.

권위도 무시하지 말 것: 콘텐츠와 신선도가 가장 중요하지만, 도메인 수준의 신호도 전체 그림에 기여할 가능성이 있다.

여러 지표 추적: CC 순위는 하나의 데이터 포인트일 뿐이지, 특효약은 아니지만 벤치마킹에 유용하다.

플랫폼 차이 이해: Wikipedia가 ChatGPT를 지배하고, Reddit이 Perplexity와 Google AI Overviews를 지배한다. 그에 맞춰 최적화하라.

롱테일 질문: 도메인이 CC에서 100만 순위 초과라면, 특정 분야에서 이것이 인용의 어려움과 상관관계가 있는지 조사할 가치가 있다.

더 많은 연구 필요: CC 권위와 LLM 인용 간의 관계는 엄격한 실증 연구를 요한다.

더 큰 맥락

알고 있는 것

대부분의 주요 LLM은 CC 데이터로 학습했다(모델의 64%, GPT-3 토큰의 80% 이상).
CC는 조화중앙성(Harmonic Centrality)을 통해 높은 권위 도메인을 우선순위 지정한다.
같은 도메인들이 LLM에 의해 가장 자주 인용된다.

알지 못하는 것

학습 데이터 구성이 실시간 신호 대비 인용에 얼마나 직접적으로 영향을 미치는가
CC 권위 지표가 독립적인 예측 가치를 가지는가
신선도 같은 확인된 신호와 이러한 요소들이 어떻게 상호작용하는가