AEO/GEO는 SEO와 다른 시스템이다: 100개 이상의 미해결 질문들
핵심
전통 SEO 지식으로는 답할 수 없는 100개 이상의 질문들이 있다. 이는 SEO를 모르기 때문이 아니라, AI 검색 시스템이 근본적으로 다른 체계를 따르며 다른 사고방식을 요구하기 때문이다.
AI 검색의 수학적 차이
역상호순위융합(Reciprocal Rank Fusion, RRF)과 순위 구조
- 역상호순위융합은 수학적으로 단일 쿼리 최고 순위보다 여러 쿼리에서의 평범한 일관성을 보상한다. 10개 쿼리에서 4위가 1개 쿼리에서 1위보다 나은가?
- k=60 상수가 순위의 수학적 상한선을 만든다. 61위가 새로운 2페이지인가?
- 온도(temperature)=0.7 설정이 재현 불가능한 순위를 만든다. 모든 것을 10번 테스트해야 하나?
벡터 임베딩과 의미론적 거리
- 벡터 임베딩은 키워드 매칭과 다르게 의미론적 거리를 결정한다. 의미를 최적화하는가 아니면 단어를 최적화하는가?
- 크로스인코더 재순위 지정(cross-encoder reranker)은 페이지랭크와 다르게 쿼리-문서 쌍을 평가한다. 사전 계산된 권위가 실시간 관련성으로 대체되고 있는가?
규모의 근본적 차이
색인 규모와 검색 범위
- 구글은 수조 개 페이지를 색인하지만, ChatGPT는 38~65개 결과를 검색한다. 이는 작은 차이가 아니라 99.999% 감소다.
- 토큰 제한은 전통 검색에 없는 하드 경계를 만든다. 언제부터 검색 결과에 최대 크기가 생겼나?
- 이것이 임시 제한인가, 아니면 근본적으로 다른 정보 검색 패러다임인가?
신호와 최적화 요소
기존 SEO 신호의 적용 여부
- OpenAI도 인용 순위 지정에 클릭률(CTR)을 사용하는가?
- AI는 구글처럼 페이지 레이아웃을 읽는가, 아니면 텍스트만 읽는가?
- 낮은 이탈율이 인용될 가능성에 영향을 미치는가?
- 세션 패턴(읽기 순서 등)이 AI를 통해 페이지를 재순위 지정하는 데 사용될 수 있는가?
새로운 잠재적 신호들
- 짧은 문단이 AI의 콘텐츠 청킹을 돕기 위해 쓰일 수 있는가?
- 양식 제출이나 다운로드가 품질 신호로 작동할 수 있는가?
- 스크롤 깊이나 마우스 움직임이 AI 순위 신호에 영향을 미칠 수 있는가?
- 확인 가능한 데이터셋을 제공하면 주장이 더 인용될 가능성이 높아지는가?
검색 결과의 불일치와 신뢰성
결과 변동성
- 캐시가 없을 때도 같은 질문을 다시 물으면 답변 구조가 항상 변한다. 왜인가?
- 여러 실행을 테스트하여 분산을 확인해야 하나?
- AI는 구글보다 더 많은 편향을 가지고 있는가?
구식 정보의 지속
- 최신 정보를 요청하는데도 터키어로 2010년대 후반의 브랜드가 나타나는 이유는 무엇인가?
- 지식 차단시점(knowledge cutoff)이 실시간 크롤링이 하지 않는 맹점을 만든다.
할루시네이션의 문제
- AI 시스템은 완전히 거짓된 인용을 만들 수 있지만, 구글은 존재하는 URL로만 링크한다.
- LLM의 할루시네이션 비율(3~27%)은 구글의 404 오류율과 비교하면 어떤가?
- 동일한 쿼리가 검색 색인에서는 일관된 결과를 주지만 AI에서는 모순된 "사실"을 생산한다.
- 사용자에게 거짓말할 수 있는 시스템에 최적화하고 있는가?
순위 지정과 인용 메커니즘
인용 생성 방식
- ChatGPT와 Perplexity가 같은 웹 데이터 소스를 사용하는가?
- OpenAI와 Anthropic이 신뢰와 신선함을 같은 방식으로 순위 지정하는가?
- 답변당 최대 인용 건수(per-source limits)가 LLM마다 다른가?
- 인용 속도(성장 속도)를 SEO의 링크 속도처럼 측정할 수 있는가?
인용과 재순위 지정의 깊이
- 재순위 지정은 몇 개 계층을 거친 후 모델이 최종 인용을 선택하는가?
- 높이 인용된 문단이 사이트의 나머지 신뢰도를 높일 수 있는가?
- 모델 업데이트가 과거 재순위 지정 선호를 재설정하는가, 아니면 부분 메모리를 유지하는가?
반복 노출과 브랜드 메모리
- 인용이 한 번 되면 나중에 다시 나타날 가능성이 높아지는가? 구글에서 상위 10위에 있으면 그 범위 내에서 계속 보이듯이, LLM에서도 같은가?
- 빈번한 인용이 도메인의 검색 우선순위를 자동으로 높일 수 있는가?
- 반복 노출이 LLM에서 지속적인 브랜드 메모리가 되려면 얼마나 걸리는가?
- LLM이 비슷한 주제나 질문 클러스터에 나타나는 브랜드들을 연결할 수 있는가?
데이터 출처와 알고리즘 변화
색인과 크롤링
- OpenAI는 웹사이트에 대한 크롤 예산을 가지고 있는가?
- "크롤-색인-제공"과 "검색-재순위-생성"의 차이는 무엇인가?
- 토크나이저가 왜 중요한가?
- 지식그래프 엔티티 인식과 LLM 토큰 임베딩은 어떻게 다른가?
- AI 시스템은 우리 사이트를 얼마나 자주 새로 고쳐 이해하는가? 검색 알고리즘 업데이트가 있는가?
- 신선함 신호가 사이트 전체인가, 페이지 수준인가?
추적 및 가시성 측정
- AI 도구가 우리 콘텐츠를 사용하고 있는지 추적할 수 있는가?
- Cloudflare 로그를 사용하여 AI 봇 방문을 볼 수 있는가?
- 스키마 변경이 AI 언급에서 측정 가능한 차이를 보이는가?
- 프롬프트 수준의 가시성을 시간에 따라 추적하는 가장 쉬운 방법은 무엇인가?
- 어떤 프롬프트나 주제가 인용을 가져오는지 알 수 있는가? 볼륨은 얼마인가?
- 브랜드가 AI 답변에서 언급된 횟수를 추적할 방법이 있는가? (브랜드 검색량처럼)
콘텐츠 전략과 브랜드 이해
최적화 방향
- 웹사이트 전체를 LLM에만 최적화하면 어떻게 되는가?
- AI가 웹페이지의 이미지를 즉시 읽고 평가할 수 있는가, 아니면 주변 텍스트만 읽는가?
- 한 문장만 우리 블로그에서 AI 모델에 인용될 수 있는가?
- AI가 우리 회사가 실제로 무엇을 하는지 이해하도록 어떻게 보장할 수 있는가?
- AI가 우리 브랜드 음성을 답변에 기억하도록 학습시킬 수 있는가?
형식과 다중 포맷 최적화
- 비디오를 같은 주제 페이지로 링크하면 다중 포맷 기반이 강화되는가?
- 내부 링크가 봇이 사이트를 쉽게 탐색하도록 도움이 되는가?
- 같은 질문이 다른 사용자에게 다른 브랜드를 제공할 수 있는가?
인용과 외부 신호
- 인용되었지만 링크되지 않은 콘텐츠를 추적할 수 있는가?
- AI 요약이 우리 페이지로 직접 링크되도록 할 방법이 있는가?
- 콘텐츠 변경 후 AI 도구가 우리를 인용하기 시작하는지 테스트할 수 있는가?
- 선택은 인용과 추론이 어느 인용이 귀속될 자격이 있는지 공동으로 결정하는가?
개인화와 메모리
사용자 행동과 역사
- 이전 AI 상호작용이 우리 브랜드에 영향을 미치는가?
- 이전 클릭 행동이 향후 LLM 추천에 영향을 미치는가?
- 사용자 클릭 피드백이 피드백 신호의 일부로 저장되는가?
- AI가 첫 방문 후 우리 브랜드를 기억할 수 있는가?
- 한 채팅 창 내에서 자동 LLM 검색이 더 많은 / 여러 번 발생하는 이유는 무엇인가?
- AI는 언제 답변 중간에 다시 검색하기로 결정하는가?
비교 프레임워크와 향후 전망
구글과의 근본적 차이
- 구글은 결과에 404 링크를 표시하지 않지만 LLM은 답변에 표시한다. 왜인가?
- LLM은 Google과 다른 중복 제거 프로세스를 사용하는가?
- 같은 임베딩 모델을 사용하는가? 코퍼스(말뭉치)의 차이는 무엇인가?
미래 발전 가능성
- LLM이 궁극적으로 구글의 링크 그래프처럼 영구적인 "인용 그래프"를 만들 수 있는가?
- LLM 재훈련 사이클이 가시성 상실 후 회복 기회를 제공하는가?
- 일부 LLM은 우리를 인용하지만 다른 LLM은 완전히 무시하는 이유는 무엇인가?
보고와 클라이언트 소통
- 월간 SEO 보고서를 단순히 "AI 가시성 AEO/GEO 보고서"로 이름만 바꾸고 클라이언트에게 보내면 어떻게 되는가?
결론
이 질문들은 사라지지 않을 것이고, 이런 질문들을 생성하는 시스템도 사라지지 않을 것이다. AEO/GEO가 SEO와 완전히 다르다고 말하는 것이 아니라, SEO 지식으로 잘 답할 수 없는 100개 이상의 질문이 있다는 것을 말하는 것이다. 이 새로운 분야에서 승자는 모든 답을 가진 사람이 아니라, 올바른 질문을 하고 무엇이 작동하는지 찾기 위해 끊임없이 테스트하는 사람들이 될 것이다.