AI 검색 결과를 지배하는 최신성 편향: 코드에서 발견, 과학으로 증명된 메커니즘

metehan.ai조회수 3294일 전

핵심

ChatGPT 설정 파일에서 발견한 use_freshness_scoring_profile: true 설정이 AI 검색 모델들의 광범위한 최신성 편향(recency bias)을 초래하며, 와세다 대학교 연구팀의 실험이 이를 정량적으로 입증했다.

발견과 증명: 설정 파일 vs. 실험 결과

코드에서 발견한 것

ChatGPT의 운영 환경 설정을 분석한 결과:

reranker_model: "ret-rr-skysight-v3" — 검색 결과를 재순위 매기는 모델
use_freshness_scoring_profile: true — 신선도 스코어링 항상 활성화
enable_query_intent: true — 쿼리 의도 감지
vocabulary_search_enabled: true — 세밀한 용어 필터링

이는 "2022년에 작성한 상세한 가이드도 최신 콘텐츠에 밀릴 수 있다"는 결론으로 이어졌다.

연구로 증명된 수치

와세다 대학교 연구팀이 GPT-4o, GPT-4, GPT-3.5, LLaMA-3(8B/70B), Qwen-2.5(7B/72B)를 포함한 7개 주요 AI 모델을 테스트했다. TREC 2021·2022 테스트 컬렉션의 텍스트는 그대로 두되, 게시 날짜만 조작하고 모델의 재순위 결과를 측정했다. 모든 모델이 조작된 날짜에 영향을 받았다.

| 지표 | 최선 | 최악 | |------|------|------| | 상위 10개 평균 연도 변동 | +0.82년 (Qwen2.5-72B) | +4.78년 (LLaMA3-8B) | | 단일 콘텐츠의 최대 순위 점프 | 61위 (Qwen2.5-7B) | 95위 (GPT-3.5-turbo) | | 관련성 판단 역전 | 8.25% (Qwen2.5-72B) | 25.23% (LLaMA3-8B) |

실제 의미:

상위 10개 결과가 날짜만으로 최대 5년 이상 최신으로 변동
단일 콘텐츠가 순위에서 95위까지 밀려날 수 있음
관련성 판단 1건 중 1/4는 날짜에만 근거해 뒤바뀜

"시소 효과"(Seesaw Effect): 순위가 파괴되는 방식

연구팀이 발견한 시소 패턴은 신선도 스코어링 프로필의 작동 원리를 정확히 설명한다.

상위 40위: 체계적으로 더 최신

1~10위: +0.8~+4.8년 더 신선함 (모든 모델, 양쪽 데이터셋)
11~20위: +0.2~+0.9년 더 신선함 (통계적으로 유의미)
21~40위: 여전히 양수 변동, 크기는 더 작음

의미: 콘텐츠 품질로 1위에 올라도 더 나쁜 최신 콘텐츠가 앞질러 갈 수 있다.

41~60위: 중심점(The Pivot Point)

약간의 양수, 약간의 음수 변동 혼재
대부분 통계적으로 무의미

의미: 신선도가 가장 덜 중요한 "중립 지대".

61~100위: 체계적으로 더 오래됨

61~70위: -0.4~-1.0년 더 오래됨
71~80위: -0.6~-1.2년 더 오래됨
81~90위: -0.7~-1.7년 더 오래됨
91~100위: -0.5~-2.0년 더 오래됨 (가장 극단적)

의미: 오래된 권위 있는 콘텐츠가 체계적으로 매장된다.

실제 영향: 세 가지 시나리오

시나리오 1: 의료 정보

일어나야 할 일: 1만 명 참가, 동료 심사된 2018년 랜드마크 연구가 높은 순위.
실제 일어나는 일: 50명 샘플, 동료 심사 없는 2024년 블로그 글이 최신이라는 이유로 더 상위.
수치: 2018년 연구가 날짜만으로 40~60위 하락 가능.

시나리오 2: 기술 문서

일어나야 할 일: 5,000회 검증, 커뮤니티 검토를 거친 2020년 결정판 가이드가 권위 있음.
실제 일어나는 일: 검증 없는 2024년 블로그가 더 상위.
수치: AI가 최신이지만 더 나쁜 콘텐츠를 선호할 확률 최대 25%.

시나리오 3: 학술 논문

일어나야 할 일: 2015~2020년 기초 논문이 권위 있는 참고자료로 유지.
실제 일어나는 일: 원래 연구 없는 최신 논평이 더 상위.
수치: 상위 10개가 체계적으로 1~5년 최신으로 변동, 고전이 강등됨.

설정 파일 + 연구 = 전체 그림

1. 재순위 모델(ret-rr-skysight-v3)

코드에서 발견: ChatGPT는 검색 결과를 재처리하는 정교한 재순위 모델 사용.
연구가 추가한 것: 이 편향은 ChatGPT에만 국한되지 않고, 모든 목록 기반 재순위 모델(listwise reranker)이 보이는 현상. 구현 특화 문제가 아니라 아키텍처 수준의 문제.
새로운 통찰: Skysight-v3은 설정 파라미터만이 아니라 훈련 과정 자체에 시간적 편향이 내재되어 있을 가능성.

2. 신선도 스코어링

코드에서 발견: use_freshness_scoring_profile: true는 항상 활성화.
연구가 추가한 것: 상위 결과에서 1~5년의 변동을 초래할 정도의 크기.
새로운 통찰: 미묘한 순위 신호가 아니라, 콘텐츠 품질 신호를 압도할 정도로 지배적.

3. 쿼리 의도 감지

코드에서 발견: enable_query_intent: true는 사용자가 실제로 무엇을 원하는지 분석.
연구가 추가한 것: 의도 감지가 시간적 적절성을 고려하지 않음. 역사 쿼리도 뉴스 쿼리와 같은 신선도 편향을 받음.
새로운 통찰: "제1차 세계대전의 원인"이라는 쿼리도 2024년 콘텐츠를 우선한다. 의도 감지가 시간 인식이 부족.

4. 어휘 검색

코드에서 발견: vocabulary_search_enabled: true는 세밀한 용어 필터링으로 기술 용어 보상.
연구가 추가한 것: 완벽한 용어를 가진 콘텐츠도 최대 25% 확률로 용어가 떨어지는 최신 콘텐츠에 진다.
새로운 통찰: 기술적 정확도도 신선도 편향을 이기지 못함.

출처:

원본 설정 분석: "ChatGPT GPT-5 검색 설정 내부" (metehan.ai)
학술 연구: "대규모 언어 모델이 최신 콘텐츠를 선호하는가? LLM 기반 재순위에서의 최신성 편향 연구" (Fang et al., 와세다 대학교, 2025)