ChatGPT의 웹 검색 순위 알고리즘 역분석: 코드에 숨겨진 설정 공개
핵심
ChatGPT 소스 코드에서 발견된 실제 설정 파일들은 웹 검색 시 어떤 웹사이트를 우선하는지를 제어한다. "View Source Code"에서 "rerank"를 검색하면 누구나 확인 가능하다.
발견 사항
재순위 지정 모델
- 핵심: ret-rr-skysight-v3 — ChatGPT가 초기 검색 결과를 완전히 재정렬하는 신경망 기반 모델
- 이는 단순 검색 알고리즘이 아니라 우리가 아직 완전히 이해하지 못한 신호에 기반해 작동
신선도 우선순위
- 설정:
use_freshness_scoring_profile: true - ChatGPT는 최신 콘텐츠를 강하게 선호한다는 게 이제 입증됐다
- 2022년에 완성한 포괄적 가이드는 지난주 발행된 평범한 콘텐츠에 밀린다
- 검색 프롬프트에 명시: "사용자가 최근 사건/신선한 정보를 요청할 때 웹 도구 사용"
다단계 필터링 시스템
ChatGPT는 다음 설정들을 통해 콘텐츠를 여러 계층으로 처리한다:
- 의도 감지 (
enable_query_intent: true) — 사용자가 정의, 비교, 튜토리얼 등 실제로 무엇을 원하는지 파악 - 어휘 분석 (
vocabulary_search_enabled: true) — 도메인 특화 용어를 인식하고 정확히 사용하는 사이트에 보상 - 출처 필터링 (
enable_source_filtering: true) — 출처별로 다른 취급 - MIME 타입 감지 (
enable_mimetype_filtering: true) — HTML, PDF 등 형식 구분 - 세밀한 필터링 (
use_coarse_grained_filters_for_vocabulary_search: false) — 대충 처리하지 않고 정밀 평가
공개 vs 개인 콘텐츠의 차별화
- 설정:
use_light_weight_scoring_for_slurm_tenants: true - "Slurm"은 연결된 제3자 서비스를 의미
- slurm_dropbox, slurm_sharepoint, slurm_box, slurm_canva, slurm_notion
- 핵심: 개인 Dropbox나 Notion을 검색할 때는 경량 점수 방식 사용
- 공개 웹을 검색할 때는 전체 신경망 재순위 지정 무장 배치
비활성화된 기능
- 설정:
use_relevance_lmp: false - ChatGPT는 이 기능(언어 모델 예측 또는 잠재 매칭 프로세스로 추정)을 명시적으로 비활성화했다
- 이는 시스템이 최첨단 실험 기능보다 전통적 정보 검색 방법과 신경망 재순위 지정 조합에 의존함을 시사
콘텐츠 제작자에게 미치는 의미
신선도는 필수
- 신선도 점수는 약한 선호가 아니라 하드코딩된 우선순위다
- 콘텐츠 갱신 전략이 반드시 필요 — 최소 분기별 업데이트
의도 명확화
- 의도 감지가 활성화돼 있으므로 콘텐츠가 정확히 무엇인지 명확히 해야 한다
- 블로그 글로 위장한 제품 비교가 아니라 구조와 언어로 목적을 명시할 것
전문 용어의 정확한 사용
- 세밀한 필터링을 갖춘 어휘 검색 시스템은 기술 용어의 정확한 사용에 보상한다
- 이는 키워드 채우기가 아니라 정확한 언어로 진정한 전문 지식을 입증하는 것
재순위 지정 생존
- 초기 검색 결과에 들어가는 것만으로는 충분하지 않다
- ret-rr-skysight-v3 모델이 모든 결과를 재정렬한다
- 콘텐츠는 어떤 재정렬 속에서도 살아남을 수 있을 만큼 훌륭해야 한다
게임의 근본적 변화
SEO 전문가와 콘텐츠 제작자는 불편한 진실과 직면했다. 이제 단순 검색 알고리즘을 최적화하는 게 아니다.
다단계 AI 파이프라인에 최적화해야 한다:
- 의도 감지
- 어휘 분석
- 신선도 점수
- 출처 필터링
- 신경망 재순위 지정
이 시스템을 속이려면 여러 독립적 평가자들(우리가 완전히 이해하지 못하는 정교한 신경망 포함)을 속여야 한다. 설정은 거짓말을 하지 않는다. 이 설정들은 현재 본프로덕션(production)에서 실행 중이며 지금 바로 모든 ChatGPT 검색에 영향을 미친다.
나아갈 길
트릭이나 핵(hack)이 아니라 진정한 권위성을 확보하고, 끊임없이 최신 상태를 유지하며, 명확하게 소통하는 것이 답이다. 기계는 품질 인식에 더 뛰어나지고 있다. 이제야말로 실제로 그것을 전달하는 데 집중할 차례다.
모든 내용은 직접 검증 가능하다. ChatGPT 열기 → View Source → "rerank" 검색. 전체 설정 분석과 코드 스니펫은 저자의 GitHub에서 확인할 수 있다.
본 분석은 2025년 8월 ChatGPT Plus 설정 기준이며, 사용자 유형과 지역에 따라 설정이 달라질 수 있다.