Gemini API를 활용한 Screaming Frog 범용 LLM 최적화 분석기 구축
핵심
구글의 AI 오버뷰(AIO), ChatGPT, Perplexity 등 AI 기반 검색 엔진의 부상에 따라 콘텐츠 순위 매김과 평가 방식이 근본적으로 변했다. 이 가이드는 Screaming Frog와 통합되고 Gemini 1.5 Flash API를 활용하여 웹페이지의 LLM 준비도를 평가하는 실험적 자바스크립트 스니펫을 소개한다.
스크립트의 역할
이 자바스크립트 스니펫은 Screaming Frog의 Custom JS Snippet에서 실행되어 크롤링된 페이지에서 구조화된 콘텐츠를 추출·분석하고, 구글 Gemini API에 포괄적인 프롬프트를 전달하여 LLM 순위 매김 준비도를 평가한다.
평가 항목
- 주제 명확성 및 추출 가능한 목표 쿼리
- LLM 친화적인 문단, 헤더, 리스트, FAQ
- 스키마 존재 여부 및 품질
- Gemini를 이용한 구간 수준 점수 매김
- LLM 성능 향상을 위한 최적화 제안
배치 포인트와이즈(Batched Pointwise) vs 포인트와이즈(Pointwise)
포인트와이즈 랭킹: 한 번에 하나의 쿼리-문서 쌍을 평가하며, "이 문서가 이 쿼리와 얼마나 관련이 있는가?"라는 질문에 답한다. 이 방식은 맥락 인식이 부족하고 종종 노이즈가 많거나 불일치한 결과를 낳는다.
배치 포인트와이즈 랭킹: 같은 쿼리에 대해 여러 후보 문서를 한 번에 제시하여 모델이 이들을 비교적으로 점수 매기거나 순위를 매기도록 한다. 이 맥락적 그룹화를 통해 모델은 문서를 독립적으로 평가하지 않고 전체 관련성의 상대적 스케일을 형성할 수 있다.
'자체 일관성 개선을 통한 LLM 관련성 평가 및 순위 매김 향상' 연구에서는 배치 포인트와이즈가 전통적인 포인트와이즈보다 모든 테스트된 모델(GPT-4o, Claude Sonnet 3, Amazon Nova Pro)에서 우수한 성능을 보였다. 자체 일관성과 결합했을 때 - 동일한 프롬프트를 여러 번 요청하고 안정성을 위해 결과를 평균화 - 특히 NDCG@10에서 우수한 순위 매김 정확도를 달성했다.
법적 검색 사례 연구 (GPT-4o)
- 일대일 포인트와이즈: 15회 자체 일관성 호출로 NDCG@10이 44.9%에서 46.8%로 개선
- 배치 포인트와이즈: NDCG@10이 43.8%에서 51.3%로 개선 (무려 +7.5 포인트 향상)
배치 처리를 통해 모델이 관련성을 비교적으로 더 잘 판단할 수 있어 더 안정적이고 높은 품질의 순위 매김과 LLM 기반 검색 시스템의 성능 향상을 실현한다.
NDCG@10이란?
NDCG(정규화된 할인 누적 이득, Normalized Discounted Cumulative Gain)는 순위 매김 품질을 측정하는 지표로, 관련성과 위치를 모두 고려한다.
- 관련성: 문서가 쿼리와 얼마나 일치하는가
- 할인: 낮은 순위(예: 1위 또는 2위)에서의 높은 관련성이 10위에서의 관련성보다 더 가치 있다
- NDCG@10: 모델이 반환한 상위 10개 결과의 품질을 측정하며, 정보 검색 및 검색 엔진 순위 매김 시스템 평가에 광범위하게 사용된다.
스크립트의 핵심 섹션
1. 콘텐츠 추출
모든 높은 신호 소스에서 추출한다:
- H1 태그
- 문단
- 순서 없는 리스트 및 순서 있는 리스트
각 구간(passage)은 다음 기준으로 평가된다:
- 단어 수(최소 10개)
- Gemini 토큰 제약을 위한 최대 길이(최대 500자)
- 위치 가중치(예: 제목 = 2.0, 리스트 = 1.1)
2. 스키마 감지
FAQ, Article, Product, HowTo, LocalBusiness 등 구조화된 데이터를 추출하여 추가 LLM 맥락을 제공한다.
3. 콘텐츠 유형 감지
페이지를 자동으로 분류한다:
- 스키마 유형
- URL 구조
- 본문 키워드 신호(예: "지금 구매" = 상품 페이지)
"단계", "튜토리얼", "가이드", "방법" 같은 표현식을 감지하여 기술 콘텐츠로 분류한다.
4. Gemini 프롬프트 설계
다음 구조의 풍부한 프롬프트를 구축한다:
- 목표 쿼리 파악
- LLMO 점수 매김 (0~5 척도)
- 구간 수준 분석
- 콘텐츠 갭 파악
- 최적화 권장사항
이를 통해 Gemini가 문서 수준이 아닌 전체 페이지를 의미론적으로 평가할 수 있다.
5. API 요청
Gemini에 동기식 호출을 수행하여 프롬프트 페이로드를 전달하고 JSON을 반환받는다. Flash 모델은 필요한 정확한 지연시간을 제공한다.
출력 형식
Gemini 응답은 구조화된 보고서로 포맷된다:
- 전체 LLMO 점수 (0~5)
- 쿼리 커버리지 (쿼리당 관련성 점수)
- 콘텐츠 갭 (LLM이 기대하는 누락된 신호)
- 최적화 우선순위 (낮음 → 긴급)
예시 결과:
=== LLMO 분석 결과 ===
• 상위 3개 잠재력: 있음
• 최적화 우선순위: 높음
• 콘텐츠 갭: 상품 비교 없음, 가격 섹션 없음
콘텐츠 최적화가 실패하는 이유
'대화형 SEO가 작동하는가?' 연구에 따르면 최적화된 페이지의 61%가 LLM 생성 인용 순서에서 순위 변화를 보이지 않으며, 특히 소매 도메인에서 그렇다. 전통적인 콘텐츠 최적화가 때로 큰 변화를 낳기도 하지만, 전체 평균 효과는 높은 편차를 가진 거의 영(zero)에 가깝다.
연구 분석
- 순위 변화 없음: 61%
- 긍정적 변화: 26.2%
- 부정적 변화: 12.8%
이는 더 광범위한 통찰을 뒷받침한다: LLM 컨텍스트 윈도우에서의 위치가 사소한 텍스트 편집보다 훨씬 더 중요하다.
LLM 컨텍스트 윈도우의 위치 효과
연구는 LLM의 컨텍스트 윈도우에서 더 일찍 나타나는 문서가 훨씬 더 많은 가시성을 얻음을 보여줬다. 인용 순위 실험에 기반한 위치별 관련성 향상:
| 위치 | 소매 | 게임 | 도서 | 웹 | 뉴스 | 토론 | 평균 | 영향 | |------|------|------|------|------|------|------|------|------| | 1 | +2.77 | +1.89 | +1.60 | +0.87 | +0.70 | +1.54 | 최고 이득 | | 2 | +1.78 | +1.28 | +1.28 | +0.19 | +0.45 | +0.41 | 긍정 | | 3 | +0.67 | +0.57 | +0.48 | -0.22 | -0.01 | -0.37 | 혼합 영향 | | 8~10 | -0.76 | -0.58 | -0.88 | -1.74 | -1.15 | -2.14 | 부정 |
결론: 응답 윈도우에서 문서의 위치를 개선하는 것이 텍스트 단독으로 최적화하는 것보다 훨씬 더 효과적이다.
사용 사례
✅ SGE/AIO/ChatGPT/AI Mode 같은 LLM 기반 검색을 위한 콘텐츠 최적화
✅ LLM이 가장 잘 이해하는 구간 파악
✅ 누락된 FAQ/스키마 발견
✅ 10개 이상의 합성 쿼리 전반에 걸쳐 각 페이지의 성능 점수 매김
고려사항 및 제한 사항
스크립트가 LLM 관련성 분석에 대한 연구 정렬 접근 방식을 구현하지만, 출력을 해석할 때 여러 제한을 고려해야 한다:
1. 실제 배치 프롬프트 평가 없음
Gemini API는 다중 문서 비교 순위 매김을 기본적으로 지원하지 않는다. 스크립트는 한 프롬프트에 여러 구간을 구조화하여 배치를 모방하지만, 실제 순위 매김 일관성은 달라질 수 있다.
2. 진정한 자체 일관성 호출 없음
연구 벤치마크는 여러 생성을 평균화하는 데 의존하지만(예: 15회 자체 일관성 호출), 이 스크립트는 단일 패스만 수행한다. 이는 LLM 점수의 안정성과 신뢰성을 제한한다.
3. 토큰 제한 트레이드오프
구간 배치와 구조화된 프롬프트로 인해 총 콘텐츠 길이가 Gemini의 토큰 예산(약 4096)으로 제한된다. 긴 페이지는 가치 있는 맥락을 잃을 수 있다.
4. 도메인별 출력 편차
전자상거래 및 FAQ 페이지는 논설(editorial) 또는 매우 시각적인 페이지보다 더 구조화되고 평가 가능한 출력을 제공한다. Gemini 모델은 추상적이거나 비표준 레이아웃에서 성능이 떨어질 수 있다.
5. 휴리스틱 가중치 오류 가능성
가중치 로직(예: 제목 = 2.0, 문단 = 1.0)은 모델 특화 피드백이 아닌 SEO 직관에 기반한다. LLM은 다르게 우선순위를 정할 수 있다.
6. 점수는 모델 특화
모든 발견은 Gemini 1.5 Flash와 연결된다. 출력 품질, 관련성 평가, 맥락 이해는 모델(Claude, GPT-4o 등)에 따라 다르다.
7. 외부 링크 또는 엔티티 점수 매김 없음
모델은 외부 링크 관련성, 인용 권위성, 엔티티 공동 발생을 분석하지 않으며, 이는 LLM 그라운딩(grounding)과 순위 매김의 핵심 요소다.
요약: 이 도구는 방향성 LLM 준비도 점수를 제공하지만, 확정적 순위 매김 판정은 아니다. 최적화 지침으로 사용하는 것이 최적이며, 검색 결과 예측으로 사용해서는 안 된다.
최종 의견
⚠️ 주의: 이 Custom JavaScript만을 기반으로 페이지를 감시하고 최적화하면 현재 순위를 깨뜨릴 수 있다. 이는 실험적이므로 가중치를 조정하고 추출기를 커스터마이즈할 수 있다.
이 스크립트는 단순한 일회성 분석 도구가 아니라 LLM 시대의 SEO가 어떤 모습인지 보여주는 청사진이다:
- 페이지 우선이 아닌 구간 우선으로 생각하라
- 키워드 스터핑이 아닌 AI 가독성으로 생각하라
- 복잡성이 아닌 구조화된 명확성으로 생각하라
배치 자체 일관성 원리와 Gemini 같은 실제 LLM API를 결합하면 자신의 LLM 최적화 스택을 구축하고 콘텐츠 전략을 미래에 대비할 수 있다.