본문 바로가기
← 목록으로

구글 AI 모드 역엔지니어링: Discovery Engine이 드러내는 구글 AI 검색 아키텍처

metehan.ai조회수 0195일 전

핵심

구글 Discovery Engine은 공개된 UI와 API 문서를 가진 실제 제품이며, 기업 고객을 위해 지속적으로 업데이트되고 있다. 이 제품의 설정 옵션과 신호 이름은 구글이 AI 검색 순위를 생각하는 방식에 대한 기술적 통찰을 제공한다.

왜 이것이 중요한가


4단계 파이프라인: 준비 → 검색 → 신호 → 응답

Stage 1: Prepare (준비) — 질의 이해 및 정규화

질의가 입력되면 시스템은 질의를 정규화하고 문맥을 파악한 후 적절한 처리 파이프라인으로 라우팅한다.

동의어(Synonym) 설정

자동완성(Autocomplete) 설정

스키마 설정: 구조화된 데이터 인덱싱 방법

각 필드는 다음 속성으로 구성할 수 있다:

| 속성 | 기능 | |------|------| | 필드명 | 데이터 필드 식별자 (예: 제품명, 고객ID, 저자) | | 타입 | 텍스트, 숫자, 날짜, 불린(예/아니오) | | 배열 | 필드가 여러 값(예: ["방수", "내구성", "가벼움"]) 또는 단일 값을 보유하는지 여부 | | Searchable(검색 가능) | 이 필드에 대한 검색 쿼리에서 재현율 개선. 텍스트 필드만 검색 가능. | | Indexable(인덱싱 가능) | 이 필드로 필터링, 정렬, 패싯(faceting) 활성화. 객체 필드는 인덱싱 불가능. | | Retrievable(검색 결과 반환) | 이 필드가 검색 결과에서 반환됨 |

의미: 구글은 Searchable, Indexable, Retrievable을 세 가지 별개의 속성으로 분리한다:

이는 구글이 구조화된 데이터 처리에 대해 어떻게 생각하는지를 보여준다. 스키마 마크업은 단순히 "인덱싱되거나 안 됨"이 아니라, 구조화된 데이터의 서로 다른 속성이 검색 파이프라인에서 서로 다른 기능을 수행한다.

최적화 시사점:


Stage 2: Retrieve (검색) — 문서 선택 및 처리

시스템이 처리된 질의를 기반으로 데이터 저장소에서 가장 관련성 있는 문서를 찾고 문서 수준의 처리를 적용한다.

데이터 저장소 설정

Discovery Engine은 검증된 웹사이트(Search Console), 다운로드된 HTML, 문서 데이터셋, 사이트맵 등 여러 데이터 소스를 수용한다.

문서 처리: 청킹(Chunking) 파이프라인

파서 옵션:

청킹 설정:

의미: 500 토큰 청크 크기 제한은 Discovery Engine이 검색 세그먼트를 **최대 약 375단어(약 500 토큰)**로 제한함을 의미한다. 청크는 더 작을 수 있지만 이 한계를 초과하지 않는다. 이는 콘텐츠가 주요 정보가 약 500 토큰 섹션 내에 자체 포함되도록 구성되어야 함을 시사한다.

상위 제목 포함 옵션이 활성화되면 중요하다. 제목 계층 구조가 각 청크를 따라다닌다. 청크가 H1 > H2 > H3 아래의 콘텐츠에서 나오면 해당 제목이 문맥으로 보존된다. 즉, 제목 구조는 독자용일 뿐 아니라 검색된 각 세그먼트에 주제별 문맥을 제공할 수 있다.

Gemini 증강 옵션은 인덱싱 중 LLM 처리를 사용하는 미리보기 기능이다. 이는 구글이 이미 검색 단계가 아닌 응답 생성 단계뿐만 아니라 검색 단계에서도 AI를 사용하여 문서 이해를 개선하고 있음을 시사한다.

최적화 시사점:


Stage 3: Signal (신호) — 7가지 순위 신호 공개

검색된 문서는 최종 순위 목록을 생성하기 위해 여러 신호 계층을 통해 처리된다. Discovery Engine의 신호 뷰어(Signal Viewer)는 모든 검색 결과에 대해 이러한 신호를 노출한다.

7가지 순위 신호

| 신호 | 설명 | 측정 내용 | |------|------|----------| | Base Ranking (기본 순위) | 핵심 순위 알고리즘의 초기 관련성 점수 | 조정 전 관련성 | | Embedding Adjustment (임베딩 조정) | 질의와 문서 임베딩 간의 의미론적 유사성 | Gecko 점수: 구글의 임베딩 모델 | | Semantic Relevance (의미론적 관련성) | 교차 주의(cross-attention) 모델 점수 | Jetstream: 임베딩보다 문맥과 부정(negation)을 더 잘 처리 | | Keyword Matching (키워드 매칭) | 질의 키워드의 빈도와 관련성 | BM25 또는 유사 알고리즘 | | Predicted Conversion (예상 전환) | 사용자 참여 가능성 | 세 계층 시스템: 인기도 → PCTR → 개인화 PCTR | | Freshness (신선도) | 최근성 점수 | 시간에 민감한 질의 조정 | | Boost/Bury (부스트/강등) | 비즈니스 규칙 기반 수동 조정 | 명시적 홍보/강등 |

신호별 상세

신호 1: Base Ranking (기본 순위)

신호 2: Embedding Adjustment (Gecko 점수)

신호 3: Semantic Relevance (Jetstream)

신호 4: Keyword Matching (BM25)

신호 5: Predicted Conversion (PCTR/PCVR)

| 계층 | 설명 | |------|------| | 계층 1: 인기도 | 모든 문서에 걸친 사용자 상호작용에서 유래. 문서와의 사용자 상호작용이 많을수록 부스트가 강함. 구글 클라우드 프로젝트의 모든 데이터 저장소에 걸쳐 집계됨. 한 데이터 저장소에 충분한 이벤트가 있으면 신호가 프로젝트 전체에서 활성화됨. BUT: 이벤트가 없는 데이터 저장소의 문서는 프로젝트 수준 임계값을 충족하더라도 부스트되지 않음. | | 계층 2: PCTR 모델 | 사용자가 문맥이 주어진 상태에서 문서를 클릭할 확률을 예측. 구글은 이것이 "순위에서 고려되는 중요한 요소"라고 명시. 앱별 (특정 검색 애플리케이션과 연결됨). 현재 앱과 연결된 데이터 저장소의 이벤트만 계산. 데이터 품질에 대한 최소 및 최적 임계값 있음. | | 계층 3: 개인화 PCTR 모델 | 사용자별 신호 포함: 사용자 메타데이터, 개별 검색 기록, 행동 패턴. 100,000개 이상의 질의가 제공된 후에만 활성화. 사용자별이지 문서별이 아님. 참여 신호의 가장 높은 계층. |

각 계층은 최적, 부분최적, 차단 상태를 표시하여, 데이터 부족으로 인해 신호가 잘 작동하거나 부분적으로 작동하거나 완전히 비활성화되는 하드 임계값이 있음을 의미한다.

신호 6: Freshness (신선도)

신호 7: Boost/Bury (부스트/강등)

신호의 결합 방식

신호 뷰어는 모든 7가지 신호를 별도 열로 표시하며, 최종 위치가 출력이다. 이는 구글이 **다중 신호 퓨전(multi-signal fusion)**을 사용하고 있음을 의미한다. 최종 순위를 생성하기 위해 모든 7가지 신호의 학습된 조합을 사용할 가능성이 높다.

이는 다른 AI 검색 시스템에서 발견한 것과 일치한다:


Stage 4: Serve (응답) — 답변 생성 및 콘텐츠 제어

시스템이 최종 답변을 생성 및 형식화하고, LLM 합성과 안전 필터링을 적용한다.

검색 유형 설정

Discovery Engine은 구글의 소비자 제품과 개념적으로 매핑되는 세 가지 검색 유형을 제공한다:

| Discovery Engine 설정 | 구글 소비자 제품 대응 가능성 | |----------------------|---------------------------| | Search - list with results | 전통적 구글 검색 | | Search with an answer | AI Overviews (AI 스냅샷) | | Search with follow-ups | AI Mode (AI 모드) |

명칭과 기능 정렬이 너무 밀접해서 우연일 리 없다. "Follow-ups와 함께 검색"은 AI 모드가 정확히 하는 것을 설명한다. 다중 턴 문맥을 가진 대화형 검색 경험.

LLM 설정

응답 계층은 모델 선택과 커스터마이제이션을 허용한다:

모델 선택: Gemini 2.5 Flash가 기본이지만, 모든 모델을 선택할 수 있다. 이는 파이프라인을 변경하지 않고 기본 모델을 교체할 수 있음을 의미한다.

답변 커스터마이제이션:

"커스텀 지시사항" 필드는 중요하다. 이는 AI 모드의 답변 스타일이 하드코딩되지 않고 프롬프트 엔지니어링됨을 시사한다. 구글은 지시사항 튜닝을 통해 답변 생성 방식을 조정할 수 있다.

안전 및 품질 게이트

여러 필터가 응답 전에 최종 게이트로 작용한다:

| 필터 | 기능 | |------|------| | Ignore no answer summary | "요약 없음" 메시지 건너뛰기 | | Ignore Adversarial Query | 감지된 적대적 질의에 대한 LLM 응답 차단 | | Ignore low relevant content | 콘텐츠 관련성이 너무 낮을 때 LLM 답변 방지 |

"낮은 관련성 콘텐츠" 필터는 중요하다. 콘텐츠가 신호 단계를 통과하더라도, LLM이 답변을 뒷받침하기에 관련성이 충분하지 않다고 판단하면 응답 단계에서 차단될 수 있다.

최적화 시사점:


완전한 그림: AI 검색에 대해 Discovery Engine이 말해주는 것

Discovery Engine의 아키텍처와 구글이 AI 검색을 광범위하게 접근하는 방식의 가능성 높은 근사:

Stage 1 - Prepare (준비): 사용자 질의 → 시간 인식 동의어 확장 → 자동완성 예측 모델 → 문맥이 있는 변환된 질의

Stage 2 - Retrieve (검색): 변환된 질의 → 데이터 저장소 조회 → 청크된 검색 (청크당 최대 500 토큰, 선택적으로 상위 제목 포함) → 레이아웃 파싱된 표/이미지 → Gemini 증강 문서 이해 → 후보 집합

Stage 3 - Signal (신호): 후보 집합 → 7가지 신호 스코어링:

Stage 4 - Serve (응답): 상위 N개 결과 → Gemini 2.5 Flash (또는 선택된 모델) → 커스텀 지시사항 적용 → 적대적/낮은 관련성 필터링 → 접지된 답변 생성 → 관련 질문 → 렌더링된 AI 모드 응답


AI 검색 최적화가 의미하는 것

Discovery Engine은 구글의 소비자 제품과 동일한 인프라와 엔지니어링 철학 위에 구축된 구글의 엔터프라이즈 검색 제품이다. 설정 옵션은 구글이 AI 기반 순위를 생각하는 방식을 드러낸다.

이것이 정확히 AI 모드가 작동하는 방식인가? 확실하게 말할 수 없다. 하지만 동일한 회사가 7개의 명시적 순위 신호, 특정 청크 크기, 소비자 제품 계층과 일치하는 3가지 검색 유형을 노출할 때, 그것은 연구할 가치 있는 기술적 정보다.


핵심 요점

  1. 7가지 명시적 신호, 블랙박스가 아니다: 신호 뷰어는 7가지 서로 다른 순위 신호를 노출한다. 이는 불투명한 결정을 내리는 단일 신경망이 아니라 해석 가능한 구성 요소를 가진 다중 신호 퓨전 시스템이다.

  2. Gecko + Jetstream = 의미론적 계층: 구글은 임베딩 유사성(Gecko)과 교차 주의(Jetstream) 모두를 의미론적 이해에 사용한다. Jetstream의 부정 처리는 단순 유사성을 초과한 미묘한 질의 이해를 시사한다.

  3. PCTR은 단일 신호가 아니라 3계층 시스템: 참여 신호는 계층으로 작동한다: 인기도 → PCTR → 개인화 PCTR. 각 계층은 품질 임계값을 가지고 더 많은 사용자 상호작용 데이터로 활성화된다. 개인화 순위는 100,000개 이상의 질의 후에만 활성화된다. (물론 이는 Discovery Engine에 관한 것)

  4. 500 토큰 청크 제한과 선택적 제목 문맥: 검색 단위는 최대 약 500 토큰으로, 상위 제목을 포함할 수 있다. 그에 따라 콘텐츠를 구조화하라.

  5. 3가지 제품 계층은 하나의 파이프라인에서 비롯된다: 전통 검색, AI Overviews, AI Mode는 모두 다른 설정으로 동일 파이프라인에서 제공된다. 아키텍처는 통합되어 있다.

  6. 적대적 및 관련성 게이트: 최종 안전 필터는 좋은 순위 랭킹에도 불구하고 콘텐츠를 차단할 수 있다. 자연스럽게 작성하고 전체적으로 높은 관련성을 유지하라.


다음 단계

Discovery Engine이 AI 모드에서 구글이 사용하는 정확한 가중치를 알려줄 수는 없다. 하지만 거의 같은 가치의 것을 제공한다: 구글 엔지니어가 AI 검색에 대해 어떻게 생각하는지의 창.