← 목록으로

스키마 마크업이 생성형AI를 통한 인용 증가에 미치는 영향은 극히 제한적

GEOmarkwilliamscook.substack.com조회수 011일 전

핵심

저자는 의도적으로 잘못된 JSON-LD 스키마를 포함한 페이지를 만들어 ChatGPT와 Perplexity 같은 LLM에 주소를 묻는 실험을 수행했다. 두 모델 모두 유효하지 않은 스키마에서 정보를 반환했는데, 이는 LLM이 스키마를 구조화된 데이터로 파싱하기보다는 단순히 페이지의 텍스트로 취급함을 의미한다.

스키마란 무엇인가

**스키마(Schema.org 구조화 데이터)**는 Google, Microsoft, Yahoo, Yandex가 함께 만든 어휘로, 웹마스터들이 기계가 읽을 수 있는 형태의 정보를 페이지에 포함시킬 수 있도록 해준다.

LLM이 스키마를 사용하는가 — 두 가지 주장

주장 1: 스키마가 모델 훈련 중에 "내재화"된다

문제점

스키마가 공개적으로 설명된 형태(블로그, 포럼, GitHub, Stack Overflow 등)로는 훈련 데이터에 많이 포함되지만, 실제 페이지의 <script> 태그 내 스키마는 아니다.

주장 2: LLM이 쿼리 시점(실시간)에 스키마를 읽는다

세 가지 버전 검토

  1. "LLM이 실시간으로 Knowledge Graph를 구축한다"

    • 거짓: Knowledge Graph는 구성된 엔티티, ID, 관계 규칙을 가진 대규모 데이터베이스다. 사용자가 질문하는 순간에 구축되지 않는다. 시간과 인프라가 부족하다.
  2. "LLM이 상류(upstream)에서 엔티티 해석 파이프라인을 구축하고, 나중에 스키마를 참고할 것이다"

    • 이는 "스키마가 언젠가 LLM의 뇌를 먹일 수 있다"는 약한 주장이다. 현재 공개된 증거는 없다.
  3. Fabrice Canel의 Microsoft 인용문 오독

    • 2025년 3월 Search Engine Land의 기사 제목: "Microsoft Bing/Copilot use schema for its LLMs"
    • 실제 인용문은 IndexNow(콘텐츠 변경 시 알림 API)에 관한 것으로, "신선한 콘텐츠를 LLM 훈련 데이터의 참조 확인으로 삼는다"는 의미였다.
    • 페이지 업데이트 알림에 관한 주장을 JSON-LD 파싱에 관한 주장으로 왜곡했다.

오리 셔츠 회사 실험(The Duck Test)

저자가 만든 실험 페이지: i83.uk/duckyea.html

결과

의미 LLM이 스키마를 올바르게 파싱했다면, 유효하지 않은 타입과 속성을 거부하거나 경고했을 것이다. 대신 JSON-LD를 단순히 특이하게 구두점이 찍힌 텍스트로 취급했고, 주소를 추출했다.

현재(실험 이후) 이 페이지를 다시 쿼리하면 LLM은 정확히 "이것은 Mark Williams-Cook이 만든 테스트 페이지다"라고 답변한다. 충분한 사람들이 이 실험에 대해 글을 작성하여 RAG(검색 증강 생성)에서 이 정보가 인출되고 있기 때문이다. 주소는 여전히 HTML에서 읽혀지고 있다.

Google의 모순

저자는 Google의 검색결과 한 페이지에서 같은 자동차 딜러(Perrys Dover Mazda)에 대한 모순을 발견:

Google Business Profile은 구조화된, 사용자가 편집한, 검증 가능한 정보 소스다. 같은 회사의 두 시스템이 호환되지 않고 있다.

함의: 스키마를 가장 많이 갖추고 있고, Knowledge Graph를 소유하며, 최장 선발주자 우위와 수직 통합을 가진 Google조차 자신의 비즈니스 정보 데이터베이스를 AI 답변과 연결하지 못하고 있다면, OpenAI나 Anthropic이 더 정교한 엔티티 파이프라인을 구축했을 가능성은 낮다.

현재 증거 기준의 문제

"LLM이 스키마에서 정보를 반환했다 = 스키마를 사용한다"는 논리가 만연하다.

스키마를 언제, 어떻게 사용할 것인가

계속 사용해야 하는 이유

피해야 할 주장

가치 있는 투자 대상

스키마의 진정한 가치는 "오늘 AI 인용을 얻는 것"이 아니라 **"내일 후보 엔티티가 될 자격을 얻는 것"**이다. AI 검색에서 후보 자격이 유일한 경쟁력인 시대에서, 이는 결코 작지 않은 가치다.

Gary Illyes(Google)의 2025년 발언: Google이 이상적으로는 스키마에 의존하지 않기를 원하며, 시스템이 영어를 올바르게 읽을 수 있게 되면 스키마는 필요 없을 것이다. 지금은 스키마가 모호성 동안 확실성을 사줄 뿐이다.

결론

  1. 스키마를 계속 사용하되, 업계의 과장된 주장을 반박하라.
  2. "LLM이 스키마를 반환했다"는 증거로 스키마 투자를 정당화하지 말 것. 오리 실험처럼 의도적으로 잘못된 스키마로 먼저 테스트하라.
  3. SEO 정설을 회의적으로 대하라: "인기 있는 답변이 반복되면 참으로 들린다"는 자동차 세차 수준의 추론이 GEO 업계에도 퍼져 있다.
  4. 증거 기준을 엄격히 적용하라: "~라고 한다"만으로는 충분하지 않다. 실험으로 검증하고, 증거가 변하면 입장을 바꿀 준비를 하라.