AEO/GEO는 SEO와 다른 시스템이다: 100개 이상의 미해결 질문들

metehanai.substack.com조회수 4267일 전

핵심

전통 SEO 지식으로는 답할 수 없는 100개 이상의 질문들이 있다. 이는 SEO를 모르기 때문이 아니라, AI 검색 시스템이 근본적으로 다른 체계를 따르며 다른 사고방식을 요구하기 때문이다.

AI 검색의 수학적 차이

역상호순위융합(Reciprocal Rank Fusion, RRF)과 순위 구조

역상호순위융합은 수학적으로 단일 쿼리 최고 순위보다 여러 쿼리에서의 평범한 일관성을 보상한다. 10개 쿼리에서 4위가 1개 쿼리에서 1위보다 나은가?
k=60 상수가 순위의 수학적 상한선을 만든다. 61위가 새로운 2페이지인가?
온도(temperature)=0.7 설정이 재현 불가능한 순위를 만든다. 모든 것을 10번 테스트해야 하나?

벡터 임베딩과 의미론적 거리

벡터 임베딩은 키워드 매칭과 다르게 의미론적 거리를 결정한다. 의미를 최적화하는가 아니면 단어를 최적화하는가?
크로스인코더 재순위 지정(cross-encoder reranker)은 페이지랭크와 다르게 쿼리-문서 쌍을 평가한다. 사전 계산된 권위가 실시간 관련성으로 대체되고 있는가?

규모의 근본적 차이

색인 규모와 검색 범위

구글은 수조 개 페이지를 색인하지만, ChatGPT는 38~65개 결과를 검색한다. 이는 작은 차이가 아니라 99.999% 감소다.
토큰 제한은 전통 검색에 없는 하드 경계를 만든다. 언제부터 검색 결과에 최대 크기가 생겼나?
이것이 임시 제한인가, 아니면 근본적으로 다른 정보 검색 패러다임인가?

신호와 최적화 요소

기존 SEO 신호의 적용 여부

OpenAI도 인용 순위 지정에 클릭률(CTR)을 사용하는가?
AI는 구글처럼 페이지 레이아웃을 읽는가, 아니면 텍스트만 읽는가?
낮은 이탈율이 인용될 가능성에 영향을 미치는가?
세션 패턴(읽기 순서 등)이 AI를 통해 페이지를 재순위 지정하는 데 사용될 수 있는가?

새로운 잠재적 신호들

짧은 문단이 AI의 콘텐츠 청킹을 돕기 위해 쓰일 수 있는가?
양식 제출이나 다운로드가 품질 신호로 작동할 수 있는가?
스크롤 깊이나 마우스 움직임이 AI 순위 신호에 영향을 미칠 수 있는가?
확인 가능한 데이터셋을 제공하면 주장이 더 인용될 가능성이 높아지는가?

검색 결과의 불일치와 신뢰성

결과 변동성

캐시가 없을 때도 같은 질문을 다시 물으면 답변 구조가 항상 변한다. 왜인가?
여러 실행을 테스트하여 분산을 확인해야 하나?
AI는 구글보다 더 많은 편향을 가지고 있는가?

구식 정보의 지속

최신 정보를 요청하는데도 터키어로 2010년대 후반의 브랜드가 나타나는 이유는 무엇인가?
지식 차단시점(knowledge cutoff)이 실시간 크롤링이 하지 않는 맹점을 만든다.

할루시네이션의 문제

AI 시스템은 완전히 거짓된 인용을 만들 수 있지만, 구글은 존재하는 URL로만 링크한다.
LLM의 할루시네이션 비율(3~27%)은 구글의 404 오류율과 비교하면 어떤가?
동일한 쿼리가 검색 색인에서는 일관된 결과를 주지만 AI에서는 모순된 "사실"을 생산한다.
사용자에게 거짓말할 수 있는 시스템에 최적화하고 있는가?

순위 지정과 인용 메커니즘

인용 생성 방식

ChatGPT와 Perplexity가 같은 웹 데이터 소스를 사용하는가?
OpenAI와 Anthropic이 신뢰와 신선함을 같은 방식으로 순위 지정하는가?
답변당 최대 인용 건수(per-source limits)가 LLM마다 다른가?
인용 속도(성장 속도)를 SEO의 링크 속도처럼 측정할 수 있는가?

인용과 재순위 지정의 깊이

재순위 지정은 몇 개 계층을 거친 후 모델이 최종 인용을 선택하는가?
높이 인용된 문단이 사이트의 나머지 신뢰도를 높일 수 있는가?
모델 업데이트가 과거 재순위 지정 선호를 재설정하는가, 아니면 부분 메모리를 유지하는가?

반복 노출과 브랜드 메모리

인용이 한 번 되면 나중에 다시 나타날 가능성이 높아지는가? 구글에서 상위 10위에 있으면 그 범위 내에서 계속 보이듯이, LLM에서도 같은가?
빈번한 인용이 도메인의 검색 우선순위를 자동으로 높일 수 있는가?
반복 노출이 LLM에서 지속적인 브랜드 메모리가 되려면 얼마나 걸리는가?
LLM이 비슷한 주제나 질문 클러스터에 나타나는 브랜드들을 연결할 수 있는가?

데이터 출처와 알고리즘 변화

색인과 크롤링

OpenAI는 웹사이트에 대한 크롤 예산을 가지고 있는가?
"크롤-색인-제공"과 "검색-재순위-생성"의 차이는 무엇인가?
토크나이저가 왜 중요한가?
지식그래프 엔티티 인식과 LLM 토큰 임베딩은 어떻게 다른가?
AI 시스템은 우리 사이트를 얼마나 자주 새로 고쳐 이해하는가? 검색 알고리즘 업데이트가 있는가?
신선함 신호가 사이트 전체인가, 페이지 수준인가?

추적 및 가시성 측정

AI 도구가 우리 콘텐츠를 사용하고 있는지 추적할 수 있는가?
Cloudflare 로그를 사용하여 AI 봇 방문을 볼 수 있는가?
스키마 변경이 AI 언급에서 측정 가능한 차이를 보이는가?
프롬프트 수준의 가시성을 시간에 따라 추적하는 가장 쉬운 방법은 무엇인가?
어떤 프롬프트나 주제가 인용을 가져오는지 알 수 있는가? 볼륨은 얼마인가?
브랜드가 AI 답변에서 언급된 횟수를 추적할 방법이 있는가? (브랜드 검색량처럼)

콘텐츠 전략과 브랜드 이해

최적화 방향

웹사이트 전체를 LLM에만 최적화하면 어떻게 되는가?
AI가 웹페이지의 이미지를 즉시 읽고 평가할 수 있는가, 아니면 주변 텍스트만 읽는가?
한 문장만 우리 블로그에서 AI 모델에 인용될 수 있는가?
AI가 우리 회사가 실제로 무엇을 하는지 이해하도록 어떻게 보장할 수 있는가?
AI가 우리 브랜드 음성을 답변에 기억하도록 학습시킬 수 있는가?

형식과 다중 포맷 최적화

비디오를 같은 주제 페이지로 링크하면 다중 포맷 기반이 강화되는가?
내부 링크가 봇이 사이트를 쉽게 탐색하도록 도움이 되는가?
같은 질문이 다른 사용자에게 다른 브랜드를 제공할 수 있는가?

인용과 외부 신호

인용되었지만 링크되지 않은 콘텐츠를 추적할 수 있는가?
AI 요약이 우리 페이지로 직접 링크되도록 할 방법이 있는가?
콘텐츠 변경 후 AI 도구가 우리를 인용하기 시작하는지 테스트할 수 있는가?
선택은 인용과 추론이 어느 인용이 귀속될 자격이 있는지 공동으로 결정하는가?

개인화와 메모리

사용자 행동과 역사

이전 AI 상호작용이 우리 브랜드에 영향을 미치는가?
이전 클릭 행동이 향후 LLM 추천에 영향을 미치는가?
사용자 클릭 피드백이 피드백 신호의 일부로 저장되는가?
AI가 첫 방문 후 우리 브랜드를 기억할 수 있는가?
한 채팅 창 내에서 자동 LLM 검색이 더 많은 / 여러 번 발생하는 이유는 무엇인가?
AI는 언제 답변 중간에 다시 검색하기로 결정하는가?

비교 프레임워크와 향후 전망

구글과의 근본적 차이

구글은 결과에 404 링크를 표시하지 않지만 LLM은 답변에 표시한다. 왜인가?
LLM은 Google과 다른 중복 제거 프로세스를 사용하는가?
같은 임베딩 모델을 사용하는가? 코퍼스(말뭉치)의 차이는 무엇인가?

미래 발전 가능성

LLM이 궁극적으로 구글의 링크 그래프처럼 영구적인 "인용 그래프"를 만들 수 있는가?
LLM 재훈련 사이클이 가시성 상실 후 회복 기회를 제공하는가?
일부 LLM은 우리를 인용하지만 다른 LLM은 완전히 무시하는 이유는 무엇인가?

보고와 클라이언트 소통

월간 SEO 보고서를 단순히 "AI 가시성 AEO/GEO 보고서"로 이름만 바꾸고 클라이언트에게 보내면 어떻게 되는가?

결론

이 질문들은 사라지지 않을 것이고, 이런 질문들을 생성하는 시스템도 사라지지 않을 것이다. AEO/GEO가 SEO와 완전히 다르다고 말하는 것이 아니라, SEO 지식으로 잘 답할 수 없는 100개 이상의 질문이 있다는 것을 말하는 것이다. 이 새로운 분야에서 승자는 모든 답을 가진 사람이 아니라, 올바른 질문을 하고 무엇이 작동하는지 찾기 위해 끊임없이 테스트하는 사람들이 될 것이다.