EntityMap: AI 시스템을 위한 엔티티 색인 공개 표준
핵심
EntityMap은 퍼블리셔가 자신의 엔티티, 증거, 관계를 기계가 읽을 수 있는 형식으로 예측 가능한 URL에 선언하기 위한 개방형 표준이다. 현재 AI 검색 시스템이 페이지 수준에서 작동하면서 발생하는 구조화된 엔티티 인식 부재, 퍼블리셔 정체성 손실, 개념 간 관계 흐릿함의 문제를 해결한다.
현재의 문제점
AI 검색 시스템은 현재 페이지 수준에서 동작한다. HTML을 가져와 구절을 추출하지만, 엔티티, 퍼블리셔 정체성, 개념 관계에 대한 구조화된 인식 없이 진행된다. 이는 퍼블리셔에게 세 가지 반복되는 실패를 야기한다.
- 동음이의 해소(Disambiguation): 다양한 표현 형태를 가진 같은 개념이 하나의 엔티티가 아닌 별도 신호로 취급된다.
- 저작권 표시(Attribution): 퍼블리셔 정체성이 검색 결과에서 누락되고 AI 답변으로 집계될 때도 사라진다.
- 관계(Relationships): 개념 간 연결이 문단 속에 묻혀 있으며 명시적인 형식의 관계로 선언되지 않는다.
표준 구성
EntityMap은 예측 가능한 루트 수준 URL에 공개되는 두 개의 파일로 구성된다.
- entitymap.json — 기계가 읽을 수 있는 주요 파일
- entitymap.html — 크롤러와 인간이 읽을 수 있는 보기
최소 엔티티 항목의 구조는 다음과 같다:
- entityId: 고유 식별자 (예: "e_001")
- @type: 엔티티 타입 (예: "DefinedTerm")
- name: 엔티티명 (예: "Companion Planting")
- description: 엔티티 설명
- sameAs: 외부 지식베이스 링크 (예: Wikidata URL)
- relations: 다른 엔티티와의 관계를 타입화된 술어(predicate)로 명시 (예: "IMPROVES", 대상 엔티티 ID, 대상명)
- hasChunks: 엔티티를 뒷받침하는 증거 텍스트로, 각 청크는:
- 텍스트 내용
- 출처 URL 및 페이지 제목
- 퍼블리셔명
- 검색 시간
- 관련성 점수
대상 사용자
퍼블리셔: 엔티티 소유권, 표현 형태 동치성, 퍼블리셔 저작권 표시를 AI 시스템이 직접 이해할 수 있는 형태로 선언한다.
RAG(검색-증강-생성) 개발자: 원본 HTML 청킹 대신 구조화되고 퍼블리셔 저작권이 표시된 검색 소스를 사용한다.
AI 검색 팀: 준수하는 모든 사이트로부터 예측 가능하고 버전 관리되는 지식 색인을 이용한다.
도구 제작자: 개방적이고 안정적인 사양을 바탕으로 생성기, 검증기, 플러그인을 개발한다. 커뮤니티 레지스트리에 구현을 등록할 수 있다.
구현 경로
EntityMap은 웹에서 입증된 패턴을 따른다: 개방형 어휘를 공개하고, 도입 가치를 입증한 후 채택을 통해 개선한다. GoodRelations는 독립적으로 공개된 어휘가 더 넓은 구조화 웹을 형성해 왔음을 보여준다. 기여, 술어(predicate) 제안, 제3자 구현은 GitHub을 통해 환영된다.