구글 AI 모드 역엔지니어링: Discovery Engine이 드러내는 구글 AI 검색 아키텍처

metehan.ai조회수 2240일 전

핵심

구글 Discovery Engine은 공개된 UI와 API 문서를 가진 실제 제품이며, 기업 고객을 위해 지속적으로 업데이트되고 있다. 이 제품의 설정 옵션과 신호 이름은 구글이 AI 검색 순위를 생각하는 방식에 대한 기술적 통찰을 제공한다.

왜 이것이 중요한가

AI 검색 최적화를 위한 하드 데이터: ChatGPT의 인용 시스템은 브라우저 개발자 도구로, Perplexity의 순위 요소는 체계적 테스트로 역엔지니어링되고 있지만, 구글의 경우 Discovery Engine에서 신호 이름과 순위 구성 요소가 문서화되고 설정 가능하다.
Discovery Engine은 구글의 엔지니어링 팀, 유사한 인프라, 소비자 제품을 구동하는 유사한 철학으로 구축됐다. 일부 신호 이름(예: "Gecko", "Jetstream")이 노출되면, 그것이 구글이 AI 검색 순위를 생각하는 방식에 대해 말해준다.

4단계 파이프라인: 준비 → 검색 → 신호 → 응답

Stage 1: Prepare (준비) — 질의 이해 및 정규화

질의가 입력되면 시스템은 질의를 정규화하고 문맥을 파악한 후 적절한 처리 파이프라인으로 라우팅한다.

동의어(Synonym) 설정

Discovery Engine은 시간 범위가 포함된 동의어 제어 목록을 추가할 수 있도록 한다.
서로 다른 시기에 다른 동의어 매핑을 적용할 수 있다는 의미 (예: 선거).
의미: 질의 이해는 정적이지 않으며, 구글은 시간적 문맥에 따라 질의 확장 방식을 동적으로 조정할 수 있다.

자동완성(Autocomplete) 설정

최대 제안 수: 설정 가능 — 후보 질의 다양성 제어
최소 트리거 길이: 문자 기반 — 예측이 언제 시작되는지 결정
매칭 순서: 두 가지 옵션
- 접두사 매칭: 제안이 입력된 용어로 시작해야 함
- 부분문자열 매칭: 제안이 용어 어디서나 매칭될 수 있음
- 이 토글은 구글의 질의 이해가 두 모드 모두 작동할 수 있음을 시사한다. AI 모드의 경우 부분문자열 매칭은 더 유연한 질의 해석과 부분 입력을 더 넓은 개념 매칭으로 연결할 수 있다.
질의 제안 모델 옵션:
- 자동: 시스템이 최적의 소스 결정
- 문서: 인덱싱된 문서 내용에서 유래
- 검색 기록: 과거 검색 기반
- 사용자 이벤트: 사용자 상호작용 데이터 기반
- 완성 가능 필드: 스키마 정의 속성에서 유래
거부 목록: 원치 않는 제안의 명시적 차단

스키마 설정: 구조화된 데이터 인덱싱 방법

각 필드는 다음 속성으로 구성할 수 있다:

| 속성 | 기능 | |------|------| | 필드명 | 데이터 필드 식별자 (예: 제품명, 고객ID, 저자) | | 타입 | 텍스트, 숫자, 날짜, 불린(예/아니오) | | 배열 | 필드가 여러 값(예: ["방수", "내구성", "가벼움"]) 또는 단일 값을 보유하는지 여부 | | Searchable(검색 가능) | 이 필드에 대한 검색 쿼리에서 재현율 개선. 텍스트 필드만 검색 가능. | | Indexable(인덱싱 가능) | 이 필드로 필터링, 정렬, 패싯(faceting) 활성화. 객체 필드는 인덱싱 불가능. | | Retrievable(검색 결과 반환) | 이 필드가 검색 결과에서 반환됨 |

의미: 구글은 Searchable, Indexable, Retrievable을 세 가지 별개의 속성으로 분리한다:

필드는 검색 가능하지만 검색 결과에 반환되지 않을 수 있음 (순위에 영향을 주지만 사용자에게는 표시 안 됨)
필드는 인덱싱 가능하지만 검색 가능하지 않을 수 있음 (필터링/정렬에는 사용되지만 텍스트 매칭에 기여하지 않음)
필드는 검색 결과에 반환되지만 인덱싱 불가능할 수 있음 (결과에는 반환되지만 필터링에는 사용 불가)

이는 구글이 구조화된 데이터 처리에 대해 어떻게 생각하는지를 보여준다. 스키마 마크업은 단순히 "인덱싱되거나 안 됨"이 아니라, 구조화된 데이터의 서로 다른 속성이 검색 파이프라인에서 서로 다른 기능을 수행한다.

최적화 시사점:

대상 주제 주변의 전체 의미론적 범위를 시간에 걸쳐 다루도록 콘텐츠를 구성하라. 역사적 용어와 현재 용어 모두 중요하다. 구글의 시간 범위 동의어는 의미론적 표류를 적극적으로 관리하고 있음을 의미한다.

Stage 2: Retrieve (검색) — 문서 선택 및 처리

시스템이 처리된 질의를 기반으로 데이터 저장소에서 가장 관련성 있는 문서를 찾고 문서 수준의 처리를 적용한다.

데이터 저장소 설정

Discovery Engine은 검증된 웹사이트(Search Console), 다운로드된 HTML, 문서 데이터셋, 사이트맵 등 여러 데이터 소스를 수용한다.

문서 처리: 청킹(Chunking) 파이프라인

파서 옵션:

기본 문서 파서
테이블 주석과 이미지 주석이 있는 레이아웃 파서
Gemini 증강 (미리보기): 문서 이해를 개선하기 위해 LLM(대형언어모델) 사용

청킹 설정:

고급 청킹 활성화 가능
청크 크기 제한: 최대 500 토큰 (고정값 아님, 최댓값)
청크에 상위 제목 포함 옵션

의미: 500 토큰 청크 크기 제한은 Discovery Engine이 검색 세그먼트를 **최대 약 375단어(약 500 토큰)**로 제한함을 의미한다. 청크는 더 작을 수 있지만 이 한계를 초과하지 않는다. 이는 콘텐츠가 주요 정보가 약 500 토큰 섹션 내에 자체 포함되도록 구성되어야 함을 시사한다.

상위 제목 포함 옵션이 활성화되면 중요하다. 제목 계층 구조가 각 청크를 따라다닌다. 청크가 H1 > H2 > H3 아래의 콘텐츠에서 나오면 해당 제목이 문맥으로 보존된다. 즉, 제목 구조는 독자용일 뿐 아니라 검색된 각 세그먼트에 주제별 문맥을 제공할 수 있다.

Gemini 증강 옵션은 인덱싱 중 LLM 처리를 사용하는 미리보기 기능이다. 이는 구글이 이미 검색 단계가 아닌 응답 생성 단계뿐만 아니라 검색 단계에서도 AI를 사용하여 문서 이해를 개선하고 있음을 시사한다.

최적화 시사점:

콘텐츠를 약 500 토큰 섹션 내에 구조화하라. 각 주요 요점은 대략 500 토큰(약 375 단어) 내에 자체 포함되어야 한다. 이것이 최대 검색 단위 크기이기 때문이다.
명확한 제목 계층 구조를 사용하라. 상위 제목이 포함되면 청크는 주제별 레이블을 지닌다. 잘 구조화된 제목 계층은 청크가 주제별로 레이블 지어짐을 의미한다.
표와 이미지를 최적화하라. 표와 이미지 주석은 표의 구조화된 데이터와 설명적 이미지 콘텐츠가 파싱되고 인덱싱됨을 의미한다.
포괄적인 사이트맵을 제출하라. 구글은 데이터 저장소용 사이트맵 데이터를 수용하므로, 사이트맵 신호는 검색에 영향을 미친다.

Stage 3: Signal (신호) — 7가지 순위 신호 공개

검색된 문서는 최종 순위 목록을 생성하기 위해 여러 신호 계층을 통해 처리된다. Discovery Engine의 신호 뷰어(Signal Viewer)는 모든 검색 결과에 대해 이러한 신호를 노출한다.

7가지 순위 신호

| 신호 | 설명 | 측정 내용 | |------|------|----------| | Base Ranking (기본 순위) | 핵심 순위 알고리즘의 초기 관련성 점수 | 조정 전 관련성 | | Embedding Adjustment (임베딩 조정) | 질의와 문서 임베딩 간의 의미론적 유사성 | Gecko 점수: 구글의 임베딩 모델 | | Semantic Relevance (의미론적 관련성) | 교차 주의(cross-attention) 모델 점수 | Jetstream: 임베딩보다 문맥과 부정(negation)을 더 잘 처리 | | Keyword Matching (키워드 매칭) | 질의 키워드의 빈도와 관련성 | BM25 또는 유사 알고리즘 | | Predicted Conversion (예상 전환) | 사용자 참여 가능성 | 세 계층 시스템: 인기도 → PCTR → 개인화 PCTR | | Freshness (신선도) | 최근성 점수 | 시간에 민감한 질의 조정 | | Boost/Bury (부스트/강등) | 비즈니스 규칙 기반 수동 조정 | 명시적 홍보/강등 |

신호별 상세

신호 1: Base Ranking (기본 순위)

모든 조정 전 초기 관련성 점수
구글의 전통적 순위 알고리즘 출력으로 보임
다른 모든 신호가 수정하는 토대

신호 2: Embedding Adjustment (Gecko 점수)

구글의 Gecko 임베딩 모델(embedding model)이 질의와 문서 임베딩 간의 의미론적 유사성을 측정
벡터 유사성 점수
최적화 시사점: 순수 키워드 매칭만으로는 충분하지 않다. 콘텐츠는 임베딩 수준에서 질의 의도와 의미론적으로 정렬되어야 한다.

신호 3: Semantic Relevance (Jetstream)

구글이 교차 주의 모델인 Jetstream을 사용한다 ("임베딩에 비해 문맥과 부정을 더 잘 이해함").
교차 주의 모델은 질의와 문서를 함께 처리하여, 순수 임베딩 유사성이 놓치는 미묘한 이해를 가능하게 한다.
부정 처리의 명시적 언급은 Jetstream이 "아닌 X"와 "Y 없이" 같은 패턴을 이해할 수 있음을 시사한다 (임베딩이 어려워하는 부분).
최적화 시사점: 무엇인지와 무엇이 아닌지를 명시적으로 다루는 콘텐츠를 작성하라. 부정 인식 순위는 구별을 명확히 하는 것이 중요함을 의미한다.

신호 4: Keyword Matching (BM25)

고전적 키워드 빈도 및 관련성 점수 (BM25 또는 변형)
전통적 키워드 최적화가 죽지 않았음을 확인한다. 7가지 신호 스택 중 하나다.
최적화 시사점: 키워드는 여전히 중요하다. 유일한 신호는 아니지만 순위 스택에 명시적으로 포함되어 있다.

신호 5: Predicted Conversion (PCTR/PCVR)

참여 신호
PCTR(예상 클릭률): 사용자가 특정 문맥에서 문서를 클릭할 확률을 예측
PCVR(예상 전환율): 예상 전환율
구글이 공개 서비스에서 "예측"이라는 단어를 스코어링과 함께 사용하는 것이 흥미롭다.
이는 단일 신호가 아니라 세 계층 시스템이다:

| 계층 | 설명 | |------|------| | 계층 1: 인기도 | 모든 문서에 걸친 사용자 상호작용에서 유래. 문서와의 사용자 상호작용이 많을수록 부스트가 강함. 구글 클라우드 프로젝트의 모든 데이터 저장소에 걸쳐 집계됨. 한 데이터 저장소에 충분한 이벤트가 있으면 신호가 프로젝트 전체에서 활성화됨. BUT: 이벤트가 없는 데이터 저장소의 문서는 프로젝트 수준 임계값을 충족하더라도 부스트되지 않음. | | 계층 2: PCTR 모델 | 사용자가 문맥이 주어진 상태에서 문서를 클릭할 확률을 예측. 구글은 이것이 "순위에서 고려되는 중요한 요소"라고 명시. 앱별 (특정 검색 애플리케이션과 연결됨). 현재 앱과 연결된 데이터 저장소의 이벤트만 계산. 데이터 품질에 대한 최소 및 최적 임계값 있음. | | 계층 3: 개인화 PCTR 모델 | 사용자별 신호 포함: 사용자 메타데이터, 개별 검색 기록, 행동 패턴. 100,000개 이상의 질의가 제공된 후에만 활성화. 사용자별이지 문서별이 아님. 참여 신호의 가장 높은 계층. |

각 계층은 최적, 부분최적, 차단 상태를 표시하여, 데이터 부족으로 인해 신호가 잘 작동하거나 부분적으로 작동하거나 완전히 비활성화되는 하드 임계값이 있음을 의미한다.

최적화 시사점: 참여는 단일 신호가 아니라 계층화된 시스템이다. 기본 인기도가 먼저 오고, 그 다음 예상 클릭률 모델링, 그 다음 개인화 예측. 더 많은 사용자 상호작용 데이터를 가진 사이트가 더 높은 순위 신호 계층을 활성화한다.

신호 6: Freshness (신선도)

최근성 점수는 질의 유형에 따라 조정됨
Discovery Engine은 이것이 "특히 시간에 민감한 질의에 중요함"이라고 명시
최적화 시사점: 신선도는 질의 의존적이다. 시간에 민감한 주제의 경우 최근 콘텐츠가 부스트된다. 에버그린(영구적) 주제의 경우 신선도는 덜 중요할 수 있다.

신호 7: Boost/Bury (부스트/강등)

비즈니스 규칙을 기반으로 -1에서 +1 범위의 수동 조정
설정 인터페이스는 다음을 허용한다:
- 데이터 저장소 선택
- AND/OR/NOT 연산자를 사용하여 필터 적용 (괄호를 이용한 그룹화)
- 따옴표를 사용한 정확 구절 매칭
- Bury (-1)에서 Boost (+1)로의 슬라이더 조정
최적화 시사점: 구글은 카테고리 규칙에 따라 수동 순위 조정을 적용할 수 있고 실제로 적용한다. 이는 E-E-A-T(Experience, Expertise, Authoritativeness, Trustworthiness) 카테고리와 소스 권위가 소스 속성에 대한 부스트/강등 규칙으로 구현되는 방식일 수 있다.

신호의 결합 방식

신호 뷰어는 모든 7가지 신호를 별도 열로 표시하며, 최종 위치가 출력이다. 이는 구글이 **다중 신호 퓨전(multi-signal fusion)**을 사용하고 있음을 의미한다. 최종 순위를 생성하기 위해 모든 7가지 신호의 학습된 조합을 사용할 가능성이 높다.

이는 다른 AI 검색 시스템에서 발견한 것과 일치한다:

ChatGPT는 상호 순위 퓨전(Reciprocal Rank Fusion, RRF) 사용
Perplexity는 XGBoost 리래너에서 59개 이상의 요소 사용
구글의 방식은 7-신호 퓨전 모델로 보임

Stage 4: Serve (응답) — 답변 생성 및 콘텐츠 제어

시스템이 최종 답변을 생성 및 형식화하고, LLM 합성과 안전 필터링을 적용한다.

검색 유형 설정

Discovery Engine은 구글의 소비자 제품과 개념적으로 매핑되는 세 가지 검색 유형을 제공한다:

| Discovery Engine 설정 | 구글 소비자 제품 대응 가능성 | |----------------------|---------------------------| | Search - list with results | 전통적 구글 검색 | | Search with an answer | AI Overviews (AI 스냅샷) | | Search with follow-ups | AI Mode (AI 모드) |

명칭과 기능 정렬이 너무 밀접해서 우연일 리 없다. "Follow-ups와 함께 검색"은 AI 모드가 정확히 하는 것을 설명한다. 다중 턴 문맥을 가진 대화형 검색 경험.

LLM 설정

응답 계층은 모델 선택과 커스터마이제이션을 허용한다:

모델 선택: Gemini 2.5 Flash가 기본이지만, 모든 모델을 선택할 수 있다. 이는 파이프라인을 변경하지 않고 기본 모델을 교체할 수 있음을 의미한다.

답변 커스터마이제이션:

톤, 스타일, 길이에 대한 커스텀 지시사항
언어 자동 감지 또는 수동 선택
관련 질문 토글
답변 이미지 소스 선택

"커스텀 지시사항" 필드는 중요하다. 이는 AI 모드의 답변 스타일이 하드코딩되지 않고 프롬프트 엔지니어링됨을 시사한다. 구글은 지시사항 튜닝을 통해 답변 생성 방식을 조정할 수 있다.

안전 및 품질 게이트

여러 필터가 응답 전에 최종 게이트로 작용한다:

| 필터 | 기능 | |------|------| | Ignore no answer summary | "요약 없음" 메시지 건너뛰기 | | Ignore Adversarial Query | 감지된 적대적 질의에 대한 LLM 응답 차단 | | Ignore low relevant content | 콘텐츠 관련성이 너무 낮을 때 LLM 답변 방지 |

"낮은 관련성 콘텐츠" 필터는 중요하다. 콘텐츠가 신호 단계를 통과하더라도, LLM이 답변을 뒷받침하기에 관련성이 충분하지 않다고 판단하면 응답 단계에서 차단될 수 있다.

최적화 시사점:

접지된 합성을 위해 최적화하라. LLM은 검색된 콘텐츠에 답변을 접지하도록 제한된다. 콘텐츠는 명확하고 추출 가능한 명제를 포함해야 한다.
적대적 패턴을 피하라. 적대적 감지를 트리거하는 콘텐츠는 필터링된다. 조작 패턴 없이 직설적으로 작성하라.
높은 관련성 밀도를 유지하라. 낮은 관련성 콘텐츠는 필터링된다. 모든 섹션이 질의 관련성에 기여해야 한다.
다중 턴을 위해 구조화하라. AI 모드는 후속 질문을 지원한다. 같은 주제 클러스터에서 관련 질문에 답하는 콘텐츠가 이점을 가질 수 있다.

완전한 그림: AI 검색에 대해 Discovery Engine이 말해주는 것

Discovery Engine의 아키텍처와 구글이 AI 검색을 광범위하게 접근하는 방식의 가능성 높은 근사:

Stage 1 - Prepare (준비): 사용자 질의 → 시간 인식 동의어 확장 → 자동완성 예측 모델 → 문맥이 있는 변환된 질의

Stage 2 - Retrieve (검색): 변환된 질의 → 데이터 저장소 조회 → 청크된 검색 (청크당 최대 500 토큰, 선택적으로 상위 제목 포함) → 레이아웃 파싱된 표/이미지 → Gemini 증강 문서 이해 → 후보 집합

Stage 3 - Signal (신호): 후보 집합 → 7가지 신호 스코어링:

Base Ranking (기본 순위, 핵심 알고리즘)
Gecko 임베딩 유사성
Jetstream 교차 주의 관련성
BM25 키워드 매칭
참여 신호 (인기도 → PCTR → 개인화 PCTR 계층)
신선도 점수
Boost/Bury 비즈니스 규칙 → 다중 신호 퓨전 → 최종 순위 목록

Stage 4 - Serve (응답): 상위 N개 결과 → Gemini 2.5 Flash (또는 선택된 모델) → 커스텀 지시사항 적용 → 적대적/낮은 관련성 필터링 → 접지된 답변 생성 → 관련 질문 → 렌더링된 AI 모드 응답

AI 검색 최적화가 의미하는 것

Discovery Engine은 구글의 소비자 제품과 동일한 인프라와 엔지니어링 철학 위에 구축된 구글의 엔터프라이즈 검색 제품이다. 설정 옵션은 구글이 AI 기반 순위를 생각하는 방식을 드러낸다.

이것이 정확히 AI 모드가 작동하는 방식인가? 확실하게 말할 수 없다. 하지만 동일한 회사가 7개의 명시적 순위 신호, 특정 청크 크기, 소비자 제품 계층과 일치하는 3가지 검색 유형을 노출할 때, 그것은 연구할 가치 있는 기술적 정보다.

핵심 요점

7가지 명시적 신호, 블랙박스가 아니다: 신호 뷰어는 7가지 서로 다른 순위 신호를 노출한다. 이는 불투명한 결정을 내리는 단일 신경망이 아니라 해석 가능한 구성 요소를 가진 다중 신호 퓨전 시스템이다.
Gecko + Jetstream = 의미론적 계층: 구글은 임베딩 유사성(Gecko)과 교차 주의(Jetstream) 모두를 의미론적 이해에 사용한다. Jetstream의 부정 처리는 단순 유사성을 초과한 미묘한 질의 이해를 시사한다.
PCTR은 단일 신호가 아니라 3계층 시스템: 참여 신호는 계층으로 작동한다: 인기도 → PCTR → 개인화 PCTR. 각 계층은 품질 임계값을 가지고 더 많은 사용자 상호작용 데이터로 활성화된다. 개인화 순위는 100,000개 이상의 질의 후에만 활성화된다. (물론 이는 Discovery Engine에 관한 것)
500 토큰 청크 제한과 선택적 제목 문맥: 검색 단위는 최대 약 500 토큰으로, 상위 제목을 포함할 수 있다. 그에 따라 콘텐츠를 구조화하라.
3가지 제품 계층은 하나의 파이프라인에서 비롯된다: 전통 검색, AI Overviews, AI Mode는 모두 다른 설정으로 동일 파이프라인에서 제공된다. 아키텍처는 통합되어 있다.
적대적 및 관련성 게이트: 최종 안전 필터는 좋은 순위 랭킹에도 불구하고 콘텐츠를 차단할 수 있다. 자연스럽게 작성하고 전체적으로 높은 관련성을 유지하라.

다음 단계

Discovery Engine이 AI 모드에서 구글이 사용하는 정확한 가중치를 알려줄 수는 없다. 하지만 거의 같은 가치의 것을 제공한다: 구글 엔지니어가 AI 검색에 대해 어떻게 생각하는지의 창.