ChatGPT의 웹 검색 순위 알고리즘 역분석: 코드에 숨겨진 설정 공개

metehanai.substack.com조회수 4337일 전

핵심

ChatGPT 소스 코드에서 발견된 실제 설정 파일들은 웹 검색 시 어떤 웹사이트를 우선하는지를 제어한다. "View Source Code"에서 "rerank"를 검색하면 누구나 확인 가능하다.

ChatGPT는 다음 설정들을 통해 콘텐츠를 여러 계층으로 처리한다:

의도 감지 (enable_query_intent: true) — 사용자가 정의, 비교, 튜토리얼 등 실제로 무엇을 원하는지 파악
어휘 분석 (vocabulary_search_enabled: true) — 도메인 특화 용어를 인식하고 정확히 사용하는 사이트에 보상
출처 필터링 (enable_source_filtering: true) — 출처별로 다른 취급
MIME 타입 감지 (enable_mimetype_filtering: true) — HTML, PDF 등 형식 구분
세밀한 필터링 (use_coarse_grained_filters_for_vocabulary_search: false) — 대충 처리하지 않고 정밀 평가

설정: use_light_weight_scoring_for_slurm_tenants: true
"Slurm"은 연결된 제3자 서비스를 의미
- slurm_dropbox, slurm_sharepoint, slurm_box, slurm_canva, slurm_notion
핵심: 개인 Dropbox나 Notion을 검색할 때는 경량 점수 방식 사용
공개 웹을 검색할 때는 전체 신경망 재순위 지정 무장 배치

SEO 전문가와 콘텐츠 제작자는 불편한 진실과 직면했다. 이제 단순 검색 알고리즘을 최적화하는 게 아니다.

다단계 AI 파이프라인에 최적화해야 한다:

이 시스템을 속이려면 여러 독립적 평가자들(우리가 완전히 이해하지 못하는 정교한 신경망 포함)을 속여야 한다. 설정은 거짓말을 하지 않는다. 이 설정들은 현재 본프로덕션(production)에서 실행 중이며 지금 바로 모든 ChatGPT 검색에 영향을 미친다.

트릭이나 핵(hack)이 아니라 진정한 권위성을 확보하고, 끊임없이 최신 상태를 유지하며, 명확하게 소통하는 것이 답이다. 기계는 품질 인식에 더 뛰어나지고 있다. 이제야말로 실제로 그것을 전달하는 데 집중할 차례다.

모든 내용은 직접 검증 가능하다. ChatGPT 열기 → View Source → "rerank" 검색. 전체 설정 분석과 코드 스니펫은 저자의 GitHub에서 확인할 수 있다.

본 분석은 2025년 8월 ChatGPT Plus 설정 기준이며, 사용자 유형과 지역에 따라 설정이 달라질 수 있다.