AI 검색 순위에서 콘텐츠 신선도 편향: 설정 증거와 실험 연구

metehanai.substack.com조회수 4293일 전

핵심

ChatGPT의 생산 설정에 신선도 점수 활성화(use_freshness_scoring_profile: true)가 하드코딩되어 있고, 와세다대학 연구팀이 이를 실험으로 정량화했다. 결과적으로 권위성 있는 기존 콘텐츠가 낮은 품질의 최신 콘텐츠에 밀려나는 현상이 확인되었다.

설정 증거 (ChatGPT 구성 파일)

저자가 2025년 8월 발견한 ChatGPT 설정:

reranker_model: "ret-rr-skysight-v3"
use_freshness_scoring_profile: true (신선도 점수 프로필 활성화)
enable_query_intent: true (쿼리 의도 활성화)
vocabulary_search_enabled: true (어휘 검색 활성화)

결론: 2022년의 가장 권위 있는 가이드도 더 낮은 품질의 최신 자료에 의해 알고리즘적으로 매장된다.

실험 증거 (와세다대학 연구)

와세다대학 연구팀이 GPT-4o, GPT-4, GPT-3.5, LLaMA-3, Qwen-2.5 등 7개 주요 모델을 대상으로 통제 실험 시행:

동일한 문단에 가짜 발행일자를 추가하고 영향도를 측정
모든 모델이 이 편향에 영향을 받음

순위 이동 규모

상위 10개 결과: 0.8~4.8년 더 새로운 자료로 이동
개별 콘텐츠: 최대 95개 순위 상승
발행일자만으로 관련성 판단이 8~25% 뒤바뀜

순위 구간별 시간 편향 패턴

상위 40순위: 체계적으로 더 새로운 자료 선호
중간대 순위: 중립적 전환점
하위 60순위: 체계적으로 더 오래된 자료로 밀려남

영향 사례

의학 콘텐츠: 동료심사를 거친 권위 있는 2018년 연구가 허술한 2024년 블로그 글에 졌다
기술 문서: 결정적인 2020년 가이드가 얕은 2024년 글에 밀려났다
학술 연구: 기초 논문은 가라앉는 반면 논평성 글은 떠오른다

모델별 신선도 편향 저항도

신선도 편향에 강한 모델:

Qwen2.5-72B: +0.82년 이동, 8% 판정 뒤바뀜
GPT-4o: +1.3년 이동

신선도 편향에 취약한 모델:

LLaMA-3-8B: +4.78년 이동, 25% 판정 뒤바뀜
GPT-3.5-turbo: 95개 순위 점프

핵심 교훈: 모델 크기보다 아키텍처가 중요. 작은 Qwen 모델들이 훨씬 큰 LLaMA 모델보다 나은 성능을 보였다.

신선도 편향의 영향 범위

신선도 편향은 부수적 순위 신호가 아니다. 관련성, 어휘, 권위성을 무시한다.
쿼리 의도가 시간 인식을 하지 못한다. "1차 세계대전의 원인"처럼 시간과 무관한 질문도 2024년 콘텐츠로 편향된다.
겉모양 업데이트가 작동한다. 발행일자만 리셋해도 콘텐츠 품질 개선 없이 순위가 올라간다.

실무 대응 전략

콘텐츠 감사: 2022년 이전 콘텐츠는 위험 영역에 있다
자주 업데이트: 경쟁 심한 쿼리는 분기별, 최소 연간 업데이트
시간 문맥 추가: 콘텐츠가 "시간 불변적"인지 "2025년 현재 기준"인지 명시
모델별 동작 테스트: 발행일자를 제거했을 때 순위 변화를 점검
모델 환경 파악: GPT-4o와 Qwen은 LLaMA보다 편향이 적다

구조적 질문

use_freshness_scoring_profile: true가 프로덕션에 하드코딩된 이유는?
쿼리에 따라 조정되는 메커니즘이 없는 이유는?
LLM 리랭커(순서 재조정)를 권위와 최신성을 모두 존중하도록 설계할 수 있을까?

현재 인센티브는 "새로울수록 낫다"를 선호한다. 이는 진실이 아니고, 권위도 아니다. 단지 시간일 뿐이다.

향후 전망

단기(6~12개월): 발행일자 게임 확산. "매일 업데이트" 배지가 웹에 범람 중기(1~2년): AI 제공업체들이 "실질적 업데이트 감지" 기술 도입 장기(3년 이상): 쿼리 종속적 시간 모델 등장 — 산업이 이를 요구한다면

그렇지 않으면 품질과 무관하게 오래된 지식이 AI 검색에서 사라질 수 있다.

발견 타임라인

8월: 설정 파일에서 메커니즘 발견
9월: 와세다대학이 규모 정량화
현재: 확실한 증거

AI 검색에서 상위 10개 순위가 1~5년 더 새로워질 수 있고, 개별 문단은 95개 순위를 뛸 수 있으며, 관련성 판정 4개 중 1개가 발행일자만으로 뒤바뀐다. 완벽함을 이기는 것은 업데이트 빈도다. 실제로 업데이트 빈도가 유일하게 중요한 것이다.