본문 바로가기
← 목록으로

16개월 구글 서치 콘솔 데이터를 벡터 데이터베이스로 변환한 후 배운 점

metehan.ai조회수 083일 전

핵심

SEO 자동화 에이전트인 OpenClaw의 한계(과거 검색 성능 데이터 부재)를 보완하기 위해, 16개월간의 구글 서치 콘솔(GSC) 데이터를 ChromaDB 벡터 데이터베이스로 구축하고 생성형 AI(Gemini, Grok, Claude)로 자연어 쿼리가 가능하도록 개발. 이 과정에서 벡터 데이터베이스의 장단점을 명확히 파악했다.

구축한 시스템

파이프라인 구조:

LLM 제공자 다중화:

경쟁사 콘텐츠 분석:

벡터 데이터베이스 접근의 문제점

수치적 정확성 부재:

SQL의 우위:

벡터 데이터베이스가 실제로 도움이 되는 경우

의미론적 검색:

자연어 인터페이스:

패턴 발견:

세 가지 접근법의 비교

| 특성 | 벡터 DB | GSC MCP 서버 | SQL DB | |------|---------|---------|--------| | 데이터 신선도 | 오래됨(새로고침 필요) | 실시간 | 오래됨(가져오기 필요) | | 수치 정확성 | 모호함 | 정확함 | 정확함 | | 의미론적 검색 | 예 | 아니오 | 아니오 | | 자연어 쿼리 | 예 | 아니오 | 아니오 | | 16개월 히스토리 | 예 | API 할당량으로 제한됨 | 예 | | 속도 | 즉시(로컬) | 느림(API 호출) | 즉시(로컬) | | 경쟁사 콘텐츠 분석 | 예(Parallel.ai 경유) | 아니오 | 아니오 | | 최적 용도 | 탐색 및 발견 | 실시간 빠른 조회 | 정확한 지표 필터링 |

이상적인 설정:

실제로 가치있는 부분

데이터 처리 파이프라인이 가장 중요:

Parallel.ai 통합이 두 번째:

사용 방법

오픈소스 공개:

설치 및 실행:

git clone https://github.com/metehan777/vectordb-gsc.git
cd vectordb-gsc
pip install -r requirements.txt

첫 실행:

python main.py extract    # 16개월 데이터 끌어오기
python main.py process    # ChromaDB에 임베딩

쿼리:

python main.py ask "which queries are declining?" --grok
python main.py audit "https://yoursite.com/page/" --grok
python main.py compete "your target keyword" --claude

다시 시작한다면

개선 사항:

임베딩 방식 개선:

현재 버전의 실제 가치: