ChatGPT 검색의 콘텐츠 순위 결정 방식: 설정 파일이 공개하는 것들

metehan.ai조회수 1338일 전

핵심

ChatGPT의 실제 설정 데이터는 콘텐츠 순위 결정의 정확한 메커니즘을 드러낸다. 단순한 추측이 아닌 프로덕션 환경의 설정 파라미터들이 콘텐츠가 AI 응답에 포함될지 여부를 직접 결정한다.

ChatGPT 검색 설정 파일 확인 방법

과거 채팅 창을 열고 우클릭으로 '소스 코드 보기' 선택
Ctrl/Command + F로 "rerank" 검색하면 설정 파일 확인 가능

리랭킹 모델: ret-rr-skysight-v3

ChatGPT의 검색 시스템 중심에는 ret-rr-skysight-v3라는 리랭킹 모델(reranking model)이 있다. 이는 단순한 검색 알고리즘이 아니라, 초기 검색 결과를 수집한 후 품질 신호에 기반해 완전히 재정렬하는 정교한 후처리 계층이다.

설정: reranker_model: "ret-rr-skysight-v3"
ChatGPT는 첫 번째 검색 결과를 그대로 사용하지 않고, 더 큰 규모의 잠재적 소스를 검색한 뒤 리랭커를 적용해 가장 관련성 높고 신뢰도 있는 콘텐츠를 식별한다.

신선도가 최우선: 점수 프로필

콘텐츠 제작자에게 가장 중요한 발견은 다음 설정이다:

설정: use_freshness_scoring_profile: true
ChatGPT는 구식 자료보다 최신 콘텐츠를 능동적으로 우선한다.
단순히 발행 날짜를 보는 것이 아니라, 전용 "신선도 점수 프로필(freshness scoring profile)"을 사용해 최신 정보에 더 높은 가중치를 부여한다.
함의: 2022년에 작성한 포괄적인 가이드라도, 더 상세하더라도 최신 콘텐츠에 밀릴 수 있다. 정기적인 콘텐츠 업데이트는 선택이 아닌 필수 요소다.

다층 필터링 시스템

설정은 여러 검사 지점을 가진 정교한 필터링 파이프라인을 드러낸다:

enable_query_intent: true
enable_source_filtering: true
enable_mimetype_filtering: true
vocabulary_search_enabled: true
use_coarse_grained_filters_for_vocabulary_search: false

쿼리 의도 감지

enable_query_intent: true: ChatGPT는 사용자가 실제로 무엇을 하려고 하는지 분석한다.
단순 키워드 매칭이 아니라, 사용자가 정의를 원하는지, 방법 가이드를 원하는지, 비교를 원하는지 등을 이해한다.

어휘 검색: 영역 전문성의 이점

vocabulary_search_enabled: true
use_coarse_grained_filters_for_vocabulary_search: false

ChatGPT는 세밀한(fine-grained) 필터링과 함께 어휘 인식 검색(vocabulary-aware searching)을 사용한다.
도메인별 전문 용어를 인식하고 우선순위를 매긴다.
적절한 업계 용어를 일관되게 사용하고 용어를 정의하는 웹사이트가 내재적 이점을 가진다.

미스터리 설정들

몇몇 관련성 기능은 명시적으로 비활성화되어 있다:

설정: use_relevance_lmp: false
"LMP"가 무엇을 의미하는지는 알 수 없지만, ChatGPT가 이를 사용하지 않기로 선택했다는 것은 확실하다.
시스템이 다른 관련성 신호(더 전통적인 정보 검색 방법과 신경망 리랭커의 조합 등)에 의존함을 시사한다.

다음 기능들은 활성화되어 있지만 정확한 목적은 불분명하다:

enable_mclick_urls: true
enable_mclick_dates: true
use_light_weight_scoring_for_slurm_tenants: true
enable_source_specific_search_params: true

"mclick" 기능은 다중 클릭 행동 또는 사용자가 여러 소스와 상호작용하는 방식 추적과 관련될 수 있다. (또는 모바일 클릭일 수도)
사용자가 Google Drive, Dropbox 등 개인/업무 계정을 연결하면 완전한 리랭킹과 점수 부여에서 경량 점수 부여로 전환되며, 결과와 인용 형식까지 동적으로 변한다.

콘텐츠 전략에 주는 의미

1. 업데이트 빈도가 정적 완벽함을 이긴다

신선도 점수 프로필은 선택이 아니다. 항상 활성화되어 있다. 완벽한 콘텐츠도 ChatGPT의 눈에 시간이 지나면 구식이 된다.

2. 의도 일치가 매우 중요하다

쿼리 의도 감지가 활성화되어 있으므로, 콘텐츠는 제공하는 정보 유형을 명확히 신호해야 한다. 제품 비교는 블로그 글처럼 보이고 읽혀서는 안 되고, 비교처럼 보이고 읽혀야 한다.

3. 기술 어휘가 중요하다

어휘 검색 시스템은 업계 용어의 적절한 사용을 보상한다.

4. 리랭커는 자주 변한다

초기 검색 가시성만으로는 충분하지 않다. ret-rr-skysight-v3 리랭커는 우리가 부분적으로만 이해할 수 있는 품질 신호에 기반해 모든 것을 재정렬할 것이다. 어떤 재정렬에도 견딜 수 있는 포괄적이고 신뢰도 높은 콘텐츠에 집중하라.

설정 데이터의 함의

이들은 ChatGPT 검색 시스템의 실제 프로덕션 설정이다. 설정 파일의 모든 true와 false는 콘텐츠가 AI 생성 응답에 나타날지 여부에 직접 영향을 미친다.

가장 놀라운 발견은 필터링과 순위 결정 파이프라인의 복잡성이다. 이는 단순한 검색 엔진이 아니라, 의도 감지, 어휘 분석, 신선도 점수 부여, 소스 필터링, 신경망 리랭킹이 모두 조화롭게 작동하는 다단계 검색 시스템이다.

콘텐츠 제작자를 위한 결론

최적화의 초점은 내용(substance), 신선도, 명확성에 맞춰야 한다. 설정은 ChatGPT가 찾는 것이 최신의, 관련성 높은, 기술적으로 정확한 콘텐츠로, 사용자 의도를 명확히 충족시킨다는 것을 보여준다.

이 시스템을 조작하려면 여러 개의 독립적인 필터와 정교한 신경망 리랭커를 속여야 할 것이다. 대신 설정이 암시적으로 보상하는 것에 집중하라: 당신의 틈새 분야에서 가장 최신의, 포괄적인, 권위 있는 소스가 되는 것.

참고: 이 분석은 2025년 8월 ChatGPT Plus 사용자 세션의 설정 데이터를 기반으로 한다. 사용자 유형, 지역, 시간에 따라 또는 OpenAI가 시스템을 업데이트하면서 설정이 달라질 수 있다.