AI 검색 순위에서 콘텐츠 신선도 편향: 설정 증거와 실험 연구
핵심
ChatGPT의 생산 설정에 신선도 점수 활성화(use_freshness_scoring_profile: true)가 하드코딩되어 있고, 와세다대학 연구팀이 이를 실험으로 정량화했다. 결과적으로 권위성 있는 기존 콘텐츠가 낮은 품질의 최신 콘텐츠에 밀려나는 현상이 확인되었다.
설정 증거 (ChatGPT 구성 파일)
저자가 2025년 8월 발견한 ChatGPT 설정:
- reranker_model: "ret-rr-skysight-v3"
- use_freshness_scoring_profile: true (신선도 점수 프로필 활성화)
- enable_query_intent: true (쿼리 의도 활성화)
- vocabulary_search_enabled: true (어휘 검색 활성화)
결론: 2022년의 가장 권위 있는 가이드도 더 낮은 품질의 최신 자료에 의해 알고리즘적으로 매장된다.
실험 증거 (와세다대학 연구)
와세다대학 연구팀이 GPT-4o, GPT-4, GPT-3.5, LLaMA-3, Qwen-2.5 등 7개 주요 모델을 대상으로 통제 실험 시행:
- 동일한 문단에 가짜 발행일자를 추가하고 영향도를 측정
- 모든 모델이 이 편향에 영향을 받음
순위 이동 규모
- 상위 10개 결과: 0.8~4.8년 더 새로운 자료로 이동
- 개별 콘텐츠: 최대 95개 순위 상승
- 발행일자만으로 관련성 판단이 8~25% 뒤바뀜
순위 구간별 시간 편향 패턴
- 상위 40순위: 체계적으로 더 새로운 자료 선호
- 중간대 순위: 중립적 전환점
- 하위 60순위: 체계적으로 더 오래된 자료로 밀려남
영향 사례
- 의학 콘텐츠: 동료심사를 거친 권위 있는 2018년 연구가 허술한 2024년 블로그 글에 졌다
- 기술 문서: 결정적인 2020년 가이드가 얕은 2024년 글에 밀려났다
- 학술 연구: 기초 논문은 가라앉는 반면 논평성 글은 떠오른다
모델별 신선도 편향 저항도
신선도 편향에 강한 모델:
- Qwen2.5-72B: +0.82년 이동, 8% 판정 뒤바뀜
- GPT-4o: +1.3년 이동
신선도 편향에 취약한 모델:
- LLaMA-3-8B: +4.78년 이동, 25% 판정 뒤바뀜
- GPT-3.5-turbo: 95개 순위 점프
핵심 교훈: 모델 크기보다 아키텍처가 중요. 작은 Qwen 모델들이 훨씬 큰 LLaMA 모델보다 나은 성능을 보였다.
신선도 편향의 영향 범위
- 신선도 편향은 부수적 순위 신호가 아니다. 관련성, 어휘, 권위성을 무시한다.
- 쿼리 의도가 시간 인식을 하지 못한다. "1차 세계대전의 원인"처럼 시간과 무관한 질문도 2024년 콘텐츠로 편향된다.
- 겉모양 업데이트가 작동한다. 발행일자만 리셋해도 콘텐츠 품질 개선 없이 순위가 올라간다.
실무 대응 전략
- 콘텐츠 감사: 2022년 이전 콘텐츠는 위험 영역에 있다
- 자주 업데이트: 경쟁 심한 쿼리는 분기별, 최소 연간 업데이트
- 시간 문맥 추가: 콘텐츠가 "시간 불변적"인지 "2025년 현재 기준"인지 명시
- 모델별 동작 테스트: 발행일자를 제거했을 때 순위 변화를 점검
- 모델 환경 파악: GPT-4o와 Qwen은 LLaMA보다 편향이 적다
구조적 질문
use_freshness_scoring_profile: true가 프로덕션에 하드코딩된 이유는?- 쿼리에 따라 조정되는 메커니즘이 없는 이유는?
- LLM 리랭커(순서 재조정)를 권위와 최신성을 모두 존중하도록 설계할 수 있을까?
현재 인센티브는 "새로울수록 낫다"를 선호한다. 이는 진실이 아니고, 권위도 아니다. 단지 시간일 뿐이다.
향후 전망
단기(6~12개월): 발행일자 게임 확산. "매일 업데이트" 배지가 웹에 범람 중기(1~2년): AI 제공업체들이 "실질적 업데이트 감지" 기술 도입 장기(3년 이상): 쿼리 종속적 시간 모델 등장 — 산업이 이를 요구한다면
그렇지 않으면 품질과 무관하게 오래된 지식이 AI 검색에서 사라질 수 있다.
발견 타임라인
- 8월: 설정 파일에서 메커니즘 발견
- 9월: 와세다대학이 규모 정량화
- 현재: 확실한 증거
AI 검색에서 상위 10개 순위가 1~5년 더 새로워질 수 있고, 개별 문단은 95개 순위를 뛸 수 있으며, 관련성 판정 4개 중 1개가 발행일자만으로 뒤바뀐다. 완벽함을 이기는 것은 업데이트 빈도다. 실제로 업데이트 빈도가 유일하게 중요한 것이다.