SEO의 지식으로는 답할 수 없는 100개 이상의 AI 검색 최적화 질문들

metehan.ai조회수 1268일 전

핵심

새로운 검색 기술이 나올 때마다 기존 지식에 맞추려는 시도를 해왔지만, AI 검색 시스템은 근본적으로 다른 체계다. ChatGPT의 순위 매김 알고리즘을 역분석하고 상호 순위 융합(RRF, Reciprocal Rank Fusion)을 발견한 결과, 기존 SEO 원칙으로는 설명할 수 없는 질문들이 생겼다.

AI 검색의 수학적 차이

순위 매김 방식의 근본적 차이
- 역함수 순위 융합(RRF)은 한 쿼리에서 1위보다 10개 쿼리에서 평균 4위를 수학적으로 더 보상하는 이유는 무엇인가
- 벡터 임베딩(vector embeddings)이 키워드 매칭과 다르게 의미적 거리를 결정하는 방식이 무엇인가
- 온도값(temperature=0.7) 설정이 재현 불가능한 순위를 만드는 이유는 무엇인가
- 교차 인코더 리랭커(cross-encoder reranker)가 PageRank와 다르게 쿼리-문서 쌍을 평가하는가

규모의 차이가 가져오는 근본적 의문

검색 범위의 극단적 차이
- 구글은 수조 개 페이지를 색인하지만 ChatGPT는 38~65개 결과만 검색 — 99.999% 감소
- 토큰 한계가 전통 검색에는 없는 경직된 경계를 만드는가
- RRF의 k=60 상수가 순위의 수학적 상한선을 정하면, 61위 이후는 사실상 '페이지 2'인가

AI 검색 최적화를 위한 실질적 질문들

페이지 인식 및 크롤링

AI는 구글처럼 페이지 레이아웃을 읽는가, 아니면 텍스트만 읽는가
스크롤 깊이나 마우스 움직임이 AI 순위 신호에 영향을 줄 수 있는가
낮은 이탈율(bounce rate)이 인용될 가능성을 높이는가
세션 패턴(읽기 순서 등)을 AI가 페이지 재순위 매김에 사용할 수 있는가
OpenAI는 웹사이트별로 크롤 예산을 할당하는가
AI 봇이 사이트를 방문하는지 Cloudflare 로그로 추적할 수 있는가

신뢰도와 신선도

오프라인 학습 데이터에 신규 브랜드가 포함되고 가시화되는 방식은 무엇인가
EEAT(전문성, 경험, 권위성, 신뢰성)가 구글보다 LLM에서 더 쉽게 조작되는 이유는 무엇인가
신선도 신호가 사이트 전체 수준인지 페이지 수준인지
지식 차단으로 인한 정보 공백이 실시간 크롤링보다 얼마나 심한가
모델 업데이트 후 오래된 정보가 계속 나타나는 이유는 무엇인가 (예: 터키 전자상거래 질문에 2010년대 브랜드가 표시되는 문제)

인용과 가시성

구글에서 상위 10위에 머물면 가시성이 유지되듯, LLM도 같은 방식인가
한 번 인용되면 같은 브랜드가 다시 인용될 가능성이 높아지는가
인용 속도(citation velocity)를 SEO의 링크 속도처럼 측정할 수 있는가
특정 주제나 질문 클러스터에서 나타나는 브랜드들을 LLM이 연결하는가
반복된 노출이 LLM의 영구적 브랜드 메모리가 되는 데 걸리는 시간은
구글과 LLM의 중복 제거(deduplication) 방식이 같은가

환각(hallucination)과 신뢰성

LLM은 존재하지 않는 URL을 인용할 수 있지만 구글은 존재하는 링크만 표시하는 이유는 무엇인가
3~27% 환각률을 구글의 404 오류율과 어떻게 비교할 것인가
동일한 쿼리가 AI에서는 모순된 "사실"을 만드는데 검색 색인에서는 아닌 이유는 무엇인가
AI 시스템이 사용자에게 거짓말할 수 있는 시스템에 최적화해야 하는가

구글과 LLM의 비교

ChatGPT와 Perplexity가 같은 웹 데이터 소스를 사용하는가
OpenAI와 Anthropic이 신뢰도와 신선도를 같은 방식으로 순위 매기는가
LLM마다 원본당 최대 인용 수 제한이 다른가
구글 AI Overview와 ChatGPT 웹 답변이 같은 신호를 사용하는가
어떤 LLM은 우리를 인용하고 다른 LLM은 완전히 무시하는 이유는 무엇인가

측정 및 추적

AI 도구가 우리 콘텐츠를 사용하는지 어떻게 추적할 수 있는가
블로그 포스트의 단 한 문장이 AI 모델에 인용될 수 있는가
쿼리 수준의 가시성을 시간 경과에 따라 추적하는 가장 간단한 방법은 무엇인가
어떤 프롬프트나 주제가 더 많은 인용을 가져오는지, 그 규모는 어느 정도인가
AI 시스템이 우리 사이트를 얼마나 자주 새로고침하는가. 검색 알고리즘 업데이트가 있는가
스키마 변경으로 AI 언급에서 측정 가능한 차이가 나타나는가
인용되었지만 연결되지 않은 콘텐츠를 어떻게 추적할 수 있는가
브랜드가 AI 답변에서 명명된 횟수를 추적할 수 있는가 (검색량 같은 개념)

콘텐츠 전략

확률 시스템에 웹/제품 페이지를 최적화하는 방법은 무엇인가
짧은 문단으로 작성하면 AI가 콘텐츠를 더 잘 분할(chunk)할 수 있는가
다운로드 가능한 데이터셋을 제공하면 주장을 더 인용 가능하게 만드는가
전체 웹사이트를 순전히 LLM을 위해 최적화하면 어떻게 되는가
웹페이지의 이미지를 AI가 즉시 읽고 평가할 수 있는가, 아니면 주변 텍스트만 읽는가
AI가 우리 회사가 무엇을 하는지 이해하도록 보장할 수 있는가
로컬 비즈니스 지도 결과를 LLM에서 더 가시화하려면 어떻게 할 것인가
폼 제출이나 다운로드가 품질 신호로 작용할 수 있는가

순위 매김 메커니즘

AI가 페이지를 이미 가져온 후 어떻게 재순위 매김하는가
몇 개의 리랭크 계층이 모델이 최종 인용을 선택하기 전에 발생하는가
높은 인용율의 문단이 전체 사이트의 신뢰 점수를 올릴 수 있는가
모델 업데이트가 과거의 리랭크 선호도를 초기화하는가, 아니면 일부 메모리를 유지하는가
어떤 부분의 시스템이 실제로 최종 인용을 선택하는가
인간 피드백 루프가 LLM이 소스를 순위 매기는 방식을 시간 경과에 따라 변경하는가
AI가 답변 중 다시 검색을 결정하는 시점은 언제인가
한 차례의 인용이 브랜드를 다시 인용할 가능성을 높이는가
빈번한 인용이 도메인의 검색 우선순위를 자동으로 높일 수 있는가
인용된 링크에 대한 사용자 클릭이 피드백 신호의 일부로 저장되는가

AI 검색의 특수성

비결정론적 특성
- 캐시가 없으면 같은 날 차이로도 답변 구조가 계속 변함
- 테스트를 10번 반복해야 하는가
페이지 선택의 이유
- 왜 Perplexity나 ChatGPT에만 나타나고 구글에는 나타나지 않는 페이지들이 있는가
- 영향력 있는 사이트가 배경링크 0개인 사이트보다 LLM 응답에서 순위가 낮을 수 있는가
- 새 페이지가 안정적인 오래된 소스보다 선호되는가
브랜드 기억과 지속성
- AI 에이전트가 첫 방문 후 우리 브랜드를 기억하는가
- 이전 상호 작용이 향후 LLM 추천에 영향을 주는가
- 과거 클릭 행동이 향후 LLM 추천에 영향을 주는가
다양한 LLM의 차이
- 왜 LLM마다 우리를 다르게 취급하는가
- 왜 LLM이 구글보다 더 편향되는가

결론

100개 이상의 질문이 존재한다는 것 자체가 중요하다. 이 질문들을 답할 수 있는 프레임워크가 아직 없다. AI 검색 최적화(AEO/GEO)가 SEO와 완전히 다르다고 선언하는 것은 아니지만, 기존 SEO 지식으로 충분히 설명할 수 없는 차이점들이 분명히 존재한다.

최종적으로 승자는 모든 답을 가진 사람이 아니라, 올바른 질문을 던지고 무엇이 작동하는지 끈질기게 테스트하는 사람이 될 것이다.