AI 검색 결과를 지배하는 최신성 편향: 코드에서 발견, 과학으로 증명된 메커니즘
핵심
ChatGPT 설정 파일에서 발견한 use_freshness_scoring_profile: true 설정이 AI 검색 모델들의 광범위한 최신성 편향(recency bias)을 초래하며, 와세다 대학교 연구팀의 실험이 이를 정량적으로 입증했다.
발견과 증명: 설정 파일 vs. 실험 결과
코드에서 발견한 것
ChatGPT의 운영 환경 설정을 분석한 결과:
- reranker_model: "ret-rr-skysight-v3" — 검색 결과를 재순위 매기는 모델
- use_freshness_scoring_profile: true — 신선도 스코어링 항상 활성화
- enable_query_intent: true — 쿼리 의도 감지
- vocabulary_search_enabled: true — 세밀한 용어 필터링
이는 "2022년에 작성한 상세한 가이드도 최신 콘텐츠에 밀릴 수 있다"는 결론으로 이어졌다.
연구로 증명된 수치
와세다 대학교 연구팀이 GPT-4o, GPT-4, GPT-3.5, LLaMA-3(8B/70B), Qwen-2.5(7B/72B)를 포함한 7개 주요 AI 모델을 테스트했다. TREC 2021·2022 테스트 컬렉션의 텍스트는 그대로 두되, 게시 날짜만 조작하고 모델의 재순위 결과를 측정했다. 모든 모델이 조작된 날짜에 영향을 받았다.
| 지표 | 최선 | 최악 | |------|------|------| | 상위 10개 평균 연도 변동 | +0.82년 (Qwen2.5-72B) | +4.78년 (LLaMA3-8B) | | 단일 콘텐츠의 최대 순위 점프 | 61위 (Qwen2.5-7B) | 95위 (GPT-3.5-turbo) | | 관련성 판단 역전 | 8.25% (Qwen2.5-72B) | 25.23% (LLaMA3-8B) |
실제 의미:
- 상위 10개 결과가 날짜만으로 최대 5년 이상 최신으로 변동
- 단일 콘텐츠가 순위에서 95위까지 밀려날 수 있음
- 관련성 판단 1건 중 1/4는 날짜에만 근거해 뒤바뀜
"시소 효과"(Seesaw Effect): 순위가 파괴되는 방식
연구팀이 발견한 시소 패턴은 신선도 스코어링 프로필의 작동 원리를 정확히 설명한다.
상위 40위: 체계적으로 더 최신
- 1~10위: +0.8~+4.8년 더 신선함 (모든 모델, 양쪽 데이터셋)
- 11~20위: +0.2~+0.9년 더 신선함 (통계적으로 유의미)
- 21~40위: 여전히 양수 변동, 크기는 더 작음
의미: 콘텐츠 품질로 1위에 올라도 더 나쁜 최신 콘텐츠가 앞질러 갈 수 있다.
41~60위: 중심점(The Pivot Point)
- 약간의 양수, 약간의 음수 변동 혼재
- 대부분 통계적으로 무의미
의미: 신선도가 가장 덜 중요한 "중립 지대".
61~100위: 체계적으로 더 오래됨
- 61~70위: -0.4~-1.0년 더 오래됨
- 71~80위: -0.6~-1.2년 더 오래됨
- 81~90위: -0.7~-1.7년 더 오래됨
- 91~100위: -0.5~-2.0년 더 오래됨 (가장 극단적)
의미: 오래된 권위 있는 콘텐츠가 체계적으로 매장된다.
실제 영향: 세 가지 시나리오
시나리오 1: 의료 정보
일어나야 할 일: 1만 명 참가, 동료 심사된 2018년 랜드마크 연구가 높은 순위.
실제 일어나는 일: 50명 샘플, 동료 심사 없는 2024년 블로그 글이 최신이라는 이유로 더 상위.
수치: 2018년 연구가 날짜만으로 40~60위 하락 가능.
시나리오 2: 기술 문서
일어나야 할 일: 5,000회 검증, 커뮤니티 검토를 거친 2020년 결정판 가이드가 권위 있음.
실제 일어나는 일: 검증 없는 2024년 블로그가 더 상위.
수치: AI가 최신이지만 더 나쁜 콘텐츠를 선호할 확률 최대 25%.
시나리오 3: 학술 논문
일어나야 할 일: 2015~2020년 기초 논문이 권위 있는 참고자료로 유지.
실제 일어나는 일: 원래 연구 없는 최신 논평이 더 상위.
수치: 상위 10개가 체계적으로 1~5년 최신으로 변동, 고전이 강등됨.
설정 파일 + 연구 = 전체 그림
1. 재순위 모델(ret-rr-skysight-v3)
코드에서 발견: ChatGPT는 검색 결과를 재처리하는 정교한 재순위 모델 사용.
연구가 추가한 것: 이 편향은 ChatGPT에만 국한되지 않고, 모든 목록 기반 재순위 모델(listwise reranker)이 보이는 현상. 구현 특화 문제가 아니라 아키텍처 수준의 문제.
새로운 통찰: Skysight-v3은 설정 파라미터만이 아니라 훈련 과정 자체에 시간적 편향이 내재되어 있을 가능성.
2. 신선도 스코어링
코드에서 발견: use_freshness_scoring_profile: true는 항상 활성화.
연구가 추가한 것: 상위 결과에서 1~5년의 변동을 초래할 정도의 크기.
새로운 통찰: 미묘한 순위 신호가 아니라, 콘텐츠 품질 신호를 압도할 정도로 지배적.
3. 쿼리 의도 감지
코드에서 발견: enable_query_intent: true는 사용자가 실제로 무엇을 원하는지 분석.
연구가 추가한 것: 의도 감지가 시간적 적절성을 고려하지 않음. 역사 쿼리도 뉴스 쿼리와 같은 신선도 편향을 받음.
새로운 통찰: "제1차 세계대전의 원인"이라는 쿼리도 2024년 콘텐츠를 우선한다. 의도 감지가 시간 인식이 부족.
4. 어휘 검색
코드에서 발견: vocabulary_search_enabled: true는 세밀한 용어 필터링으로 기술 용어 보상.
연구가 추가한 것: 완벽한 용어를 가진 콘텐츠도 최대 25% 확률로 용어가 떨어지는 최신 콘텐츠에 진다.
새로운 통찰: 기술적 정확도도 신선도 편향을 이기지 못함.
출처:
- 원본 설정 분석: "ChatGPT GPT-5 검색 설정 내부" (metehan.ai)
- 학술 연구: "대규모 언어 모델이 최신 콘텐츠를 선호하는가? LLM 기반 재순위에서의 최신성 편향 연구" (Fang et al., 와세다 대학교, 2025)