본문 바로가기
← 목록으로

ChatGPT는 실제로 어떻게 출처를 선택하나 — 네트워크 트래픽 분석을 통한 발견

suganthan.com조회수 05일 전

핵심

저자가 ChatGPT의 브라우저 네트워크 트래픽을 읽어 내부 라벨(result_source, turn_use_case 등)을 추출해, 플랫폼이 실제로 어떤 출처를 어떻게 사용하는지 기록했다. 광범위한 프롬프트 실험이 아닌 내부 신호 분석이므로 구조적 발견은 신뢰할 수 있지만, 수치와 백분율은 소수의 SaaS·기술 쿼리에서 나온 방향성 지표일 뿐이다.

분석 방법론: 종래 연구와의 차이

기존 대규모 가시성 연구

이 연구의 접근

기술 상세: 패킷 캡처의 한계

암호화로 인한 제약

실제 수집 방법

모든 출처를 라벨링하는 필드: result_source

4가지 값

출처 분포 패턴 (SaaS·기술 쿼리 기준)

사례: 날씨 쿼리에서 Met Office, AccuWeather, timeanddate.com은 bright로, khaleejtimes.com, gulfnews.com, whatson.ae는 oxylabs로 가져옴

AI SEO/GEO 실무 팁

웹 검색을 건너뛰는 쿼리들

turn_use_case 분류

ChatGPT는 질문을 받으면 먼저 turn_use_case라는 필드에 분류한다 (6가지):

검색이 일어나지 않는 경우: text

단어 선택이 분류를 결정

AI SEO/GEO 실무 팁

한 질문이 수십 개 쿼리로 확장되는 방식: 팬아웃

모델 내부 검색 노출

사례: 제품 비교 쿼리

"Profound AI search visibility pricing AI engines tracked 2026"
"AthenaHQ pricing AI search visibility tool"
"site:peec.ai/pricing Peec AI Starter Pro Advanced 50 prompts 150 prompts"
"Peec AI pricing $95 $245 $495 official"     (추측값 후 확인 검색)
"Scrunch AI pricing"                          (프롬프트에 없음, 중간 조사에서 발견)
...약 40개 쿼리

주목할 특징

사용자 사이트의 경우: "keyword insights pricing" 쿼리 → site:keywordinsights.ai/pricing 프로브 실행 → "Starter $58, Pro $145, Advanced $299" 추측 → 페이지 열어서 HTML 통화 기호 확인

AI SEO/GEO 실무 팁

가져온 것, 인용된 것, 언급된 것의 차이

3가지 별개 결과

실제 격차: Reddit vs YouTube

저자의 표본에서:

기계적 이유: 인용은 모델이 가져온 텍스트에 바인딩되어야 함

광범위 데이터: Ahrefs (140만 ChatGPT 프롬프트)는 Reddit 1.93% vs YouTube 0.51%, Profound도 동일 격차 확인

인용 상위 도메인 (표본: 상업·추천 쿼리)

벤더 페이지도 인용됨: 자체 사실(가격·스펙) 기준 인용 (Zoho, Semrush, VPN)

기계적 메커니즘

  1. 인용은 특정 문장에 바인딩: 주제 관련성만으로 부족, 정확한 주장 최고 지지자여야 함
  2. 도메인별 중복 제거: 사이트의 20개 얇은 페이지 → 1개로 축약
    • 결론: 주장당 1개 강한 페이지 > 약한 페이지 더미

AI SEO/GEO 실무 팁

모델이 자신의 전략을 설명함: 사고 연쇄(Chain of Thought)

숨겨진 랭킹 점수는 없음

사고 모델의 추론 분석

생성된 대화에 저장된 chain of thought를 읽으면 출처 선택 이유가 명문으로 나타남.

사례 1: Ahrefs 가격

사례 2: Profound, Peec 가격

핵심: 모델이 원한 출처(Profound, Peec) = 페이지 파싱 실패 → G2 인용 = 자신의 사실이 타사 페이지에

AI SEO/GEO 실무 팁

관찰할 수 없었던 것들

보이지 않는 것

정량 한계

자체 실행: 도구와 방법

수동 분석

  1. DevTools로 result_source 확인

    • ChatGPT 열기 → Cmd+Option+I (DevTools) → Network 탭 → Preserve log 체크 → 쿼리 실행 → Cmd+Option+F → "result_source" 검색
    • 각 링크 뒤 파이프라인 노출
  2. Console에서 JSON 파싱 (웹 검색 대화 필요)

    const t = (await (await fetch('/api/auth/session')).json()).accessToken;
    const c = await (await fetch('/backend-api/conversation/' + location.pathname.split('/c/')[1], {headers: {Authorization: 'Bearer ' + t}})).json();
    const rows = [];
    JSON.stringify(c, (k, v) => {
      if (v && v.result_source) {
        const d = (v.attribution || v.url || '?').toString();
        rows.push({source: d.replace('https://', '').replace('www.', '').split('/')[0], pipeline: v.result_source});
      }
      return v;
    });
    console.table(rows);
    
    • 자신의 세션만 읽음, 기계 밖으로 나가지 않음
    • 검색·인용·추론 데이터도 루프 변경으로 추출 가능

자동 도구: Chrome 확장

Olivier de Segonzac이 무료 Chrome 확장 개발 (이 연구 기반 확장):

결론: 통상적 조언은 타당한가

대체로 맞음

핵심 교훈: ChatGPT는 검색엔진이 아니다 → 검색엔진으로 최적화하지 말 것

후속 연구 계획