Gemini API를 활용한 Screaming Frog 범용 LLM 최적화 분석기 구축

metehan.ai조회수 1380일 전

핵심

구글의 AI 오버뷰(AIO), ChatGPT, Perplexity 등 AI 기반 검색 엔진의 부상에 따라 콘텐츠 순위 매김과 평가 방식이 근본적으로 변했다. 이 가이드는 Screaming Frog와 통합되고 Gemini 1.5 Flash API를 활용하여 웹페이지의 LLM 준비도를 평가하는 실험적 자바스크립트 스니펫을 소개한다.

스크립트의 역할

이 자바스크립트 스니펫은 Screaming Frog의 Custom JS Snippet에서 실행되어 크롤링된 페이지에서 구조화된 콘텐츠를 추출·분석하고, 구글 Gemini API에 포괄적인 프롬프트를 전달하여 LLM 순위 매김 준비도를 평가한다.

평가 항목

주제 명확성 및 추출 가능한 목표 쿼리
LLM 친화적인 문단, 헤더, 리스트, FAQ
스키마 존재 여부 및 품질
Gemini를 이용한 구간 수준 점수 매김
LLM 성능 향상을 위한 최적화 제안

배치 포인트와이즈(Batched Pointwise) vs 포인트와이즈(Pointwise)

포인트와이즈 랭킹: 한 번에 하나의 쿼리-문서 쌍을 평가하며, "이 문서가 이 쿼리와 얼마나 관련이 있는가?"라는 질문에 답한다. 이 방식은 맥락 인식이 부족하고 종종 노이즈가 많거나 불일치한 결과를 낳는다.

배치 포인트와이즈 랭킹: 같은 쿼리에 대해 여러 후보 문서를 한 번에 제시하여 모델이 이들을 비교적으로 점수 매기거나 순위를 매기도록 한다. 이 맥락적 그룹화를 통해 모델은 문서를 독립적으로 평가하지 않고 전체 관련성의 상대적 스케일을 형성할 수 있다.

'자체 일관성 개선을 통한 LLM 관련성 평가 및 순위 매김 향상' 연구에서는 배치 포인트와이즈가 전통적인 포인트와이즈보다 모든 테스트된 모델(GPT-4o, Claude Sonnet 3, Amazon Nova Pro)에서 우수한 성능을 보였다. 자체 일관성과 결합했을 때 - 동일한 프롬프트를 여러 번 요청하고 안정성을 위해 결과를 평균화 - 특히 NDCG@10에서 우수한 순위 매김 정확도를 달성했다.

법적 검색 사례 연구 (GPT-4o)

일대일 포인트와이즈: 15회 자체 일관성 호출로 NDCG@10이 44.9%에서 46.8%로 개선
배치 포인트와이즈: NDCG@10이 43.8%에서 51.3%로 개선 (무려 +7.5 포인트 향상)

배치 처리를 통해 모델이 관련성을 비교적으로 더 잘 판단할 수 있어 더 안정적이고 높은 품질의 순위 매김과 LLM 기반 검색 시스템의 성능 향상을 실현한다.

NDCG@10이란?

NDCG(정규화된 할인 누적 이득, Normalized Discounted Cumulative Gain)는 순위 매김 품질을 측정하는 지표로, 관련성과 위치를 모두 고려한다.

관련성: 문서가 쿼리와 얼마나 일치하는가
할인: 낮은 순위(예: 1위 또는 2위)에서의 높은 관련성이 10위에서의 관련성보다 더 가치 있다
NDCG@10: 모델이 반환한 상위 10개 결과의 품질을 측정하며, 정보 검색 및 검색 엔진 순위 매김 시스템 평가에 광범위하게 사용된다.

스크립트의 핵심 섹션

1. 콘텐츠 추출

모든 높은 신호 소스에서 추출한다:

H1 태그
문단
순서 없는 리스트 및 순서 있는 리스트

각 구간(passage)은 다음 기준으로 평가된다:

단어 수(최소 10개)
Gemini 토큰 제약을 위한 최대 길이(최대 500자)
위치 가중치(예: 제목 = 2.0, 리스트 = 1.1)

2. 스키마 감지

FAQ, Article, Product, HowTo, LocalBusiness 등 구조화된 데이터를 추출하여 추가 LLM 맥락을 제공한다.

3. 콘텐츠 유형 감지

페이지를 자동으로 분류한다:

스키마 유형
URL 구조
본문 키워드 신호(예: "지금 구매" = 상품 페이지)

"단계", "튜토리얼", "가이드", "방법" 같은 표현식을 감지하여 기술 콘텐츠로 분류한다.

4. Gemini 프롬프트 설계

다음 구조의 풍부한 프롬프트를 구축한다:

목표 쿼리 파악
LLMO 점수 매김 (0~5 척도)
구간 수준 분석
콘텐츠 갭 파악
최적화 권장사항

이를 통해 Gemini가 문서 수준이 아닌 전체 페이지를 의미론적으로 평가할 수 있다.

5. API 요청

Gemini에 동기식 호출을 수행하여 프롬프트 페이로드를 전달하고 JSON을 반환받는다. Flash 모델은 필요한 정확한 지연시간을 제공한다.

출력 형식

Gemini 응답은 구조화된 보고서로 포맷된다:

전체 LLMO 점수 (0~5)
쿼리 커버리지 (쿼리당 관련성 점수)
콘텐츠 갭 (LLM이 기대하는 누락된 신호)
최적화 우선순위 (낮음 → 긴급)

예시 결과:

=== LLMO 분석 결과 ===
• 상위 3개 잠재력: 있음
• 최적화 우선순위: 높음
• 콘텐츠 갭: 상품 비교 없음, 가격 섹션 없음

콘텐츠 최적화가 실패하는 이유

'대화형 SEO가 작동하는가?' 연구에 따르면 최적화된 페이지의 61%가 LLM 생성 인용 순서에서 순위 변화를 보이지 않으며, 특히 소매 도메인에서 그렇다. 전통적인 콘텐츠 최적화가 때로 큰 변화를 낳기도 하지만, 전체 평균 효과는 높은 편차를 가진 거의 영(zero)에 가깝다.

연구 분석

순위 변화 없음: 61%
긍정적 변화: 26.2%
부정적 변화: 12.8%

이는 더 광범위한 통찰을 뒷받침한다: LLM 컨텍스트 윈도우에서의 위치가 사소한 텍스트 편집보다 훨씬 더 중요하다.

LLM 컨텍스트 윈도우의 위치 효과

연구는 LLM의 컨텍스트 윈도우에서 더 일찍 나타나는 문서가 훨씬 더 많은 가시성을 얻음을 보여줬다. 인용 순위 실험에 기반한 위치별 관련성 향상:

| 위치 | 소매 | 게임 | 도서 | 웹 | 뉴스 | 토론 | 평균 | 영향 | |------|------|------|------|------|------|------|------|------| | 1 | +2.77 | +1.89 | +1.60 | +0.87 | +0.70 | +1.54 | 최고 이득 | | 2 | +1.78 | +1.28 | +1.28 | +0.19 | +0.45 | +0.41 | 긍정 | | 3 | +0.67 | +0.57 | +0.48 | -0.22 | -0.01 | -0.37 | 혼합 영향 | | 8~10 | -0.76 | -0.58 | -0.88 | -1.74 | -1.15 | -2.14 | 부정 |

결론: 응답 윈도우에서 문서의 위치를 개선하는 것이 텍스트 단독으로 최적화하는 것보다 훨씬 더 효과적이다.

사용 사례

✅ SGE/AIO/ChatGPT/AI Mode 같은 LLM 기반 검색을 위한 콘텐츠 최적화

✅ LLM이 가장 잘 이해하는 구간 파악

✅ 누락된 FAQ/스키마 발견

✅ 10개 이상의 합성 쿼리 전반에 걸쳐 각 페이지의 성능 점수 매김

고려사항 및 제한 사항

스크립트가 LLM 관련성 분석에 대한 연구 정렬 접근 방식을 구현하지만, 출력을 해석할 때 여러 제한을 고려해야 한다:

1. 실제 배치 프롬프트 평가 없음

Gemini API는 다중 문서 비교 순위 매김을 기본적으로 지원하지 않는다. 스크립트는 한 프롬프트에 여러 구간을 구조화하여 배치를 모방하지만, 실제 순위 매김 일관성은 달라질 수 있다.

2. 진정한 자체 일관성 호출 없음

연구 벤치마크는 여러 생성을 평균화하는 데 의존하지만(예: 15회 자체 일관성 호출), 이 스크립트는 단일 패스만 수행한다. 이는 LLM 점수의 안정성과 신뢰성을 제한한다.

3. 토큰 제한 트레이드오프

구간 배치와 구조화된 프롬프트로 인해 총 콘텐츠 길이가 Gemini의 토큰 예산(약 4096)으로 제한된다. 긴 페이지는 가치 있는 맥락을 잃을 수 있다.

4. 도메인별 출력 편차

전자상거래 및 FAQ 페이지는 논설(editorial) 또는 매우 시각적인 페이지보다 더 구조화되고 평가 가능한 출력을 제공한다. Gemini 모델은 추상적이거나 비표준 레이아웃에서 성능이 떨어질 수 있다.

5. 휴리스틱 가중치 오류 가능성

가중치 로직(예: 제목 = 2.0, 문단 = 1.0)은 모델 특화 피드백이 아닌 SEO 직관에 기반한다. LLM은 다르게 우선순위를 정할 수 있다.

6. 점수는 모델 특화

모든 발견은 Gemini 1.5 Flash와 연결된다. 출력 품질, 관련성 평가, 맥락 이해는 모델(Claude, GPT-4o 등)에 따라 다르다.

7. 외부 링크 또는 엔티티 점수 매김 없음

모델은 외부 링크 관련성, 인용 권위성, 엔티티 공동 발생을 분석하지 않으며, 이는 LLM 그라운딩(grounding)과 순위 매김의 핵심 요소다.

요약: 이 도구는 방향성 LLM 준비도 점수를 제공하지만, 확정적 순위 매김 판정은 아니다. 최적화 지침으로 사용하는 것이 최적이며, 검색 결과 예측으로 사용해서는 안 된다.

최종 의견

⚠️ 주의: 이 Custom JavaScript만을 기반으로 페이지를 감시하고 최적화하면 현재 순위를 깨뜨릴 수 있다. 이는 실험적이므로 가중치를 조정하고 추출기를 커스터마이즈할 수 있다.

이 스크립트는 단순한 일회성 분석 도구가 아니라 LLM 시대의 SEO가 어떤 모습인지 보여주는 청사진이다:

페이지 우선이 아닌 구간 우선으로 생각하라
키워드 스터핑이 아닌 AI 가독성으로 생각하라
복잡성이 아닌 구조화된 명확성으로 생각하라

배치 자체 일관성 원리와 Gemini 같은 실제 LLM API를 결합하면 자신의 LLM 최적화 스택을 구축하고 콘텐츠 전략을 미래에 대비할 수 있다.