AI 프롬프트에서 중요한 것: 의도인가 단어인가? Peec AI 연구 결과
핵심
사용자들은 AI에 질문할 때 다양한 단어로 표현하지만, 90% 이상의 변형이 비슷한 의미를 담고 있다. AI 엔진의 브랜드 추천은 정확한 단어보다 핵심 의도에 더 민감하게 반응한다. 다만 중간 구매 단계의 상업 쿼리에서는 표현 변화가 승패를 가르는 요소로 작용한다.
프롬프트 표현이 AI 브랜드 가시성에 미치는 영향
주요 발견
- 변형은 제한적이며 무질서하지 않음: 사용자들이 다르게 표현하지만, 90% 이상이 매우 유사한 의미를 가짐
- 단어보다 의도가 중요: 정확한 단어에 대해 걱정할 필요 없음. 핵심 의도가 같으면 브랜드 언급이 안정적
- 스타일도 의미만큼 중요: 간결한 키워드나 "리스트" 형식의 요청은 개방형 프롬프트보다 최대 20% 더 많은 브랜드를 표시
- 표현 변화는 중간 구매 단계에서 가장 영향 큼: 상단 및 하단 단계의 쿼리는 표현 변화에 상대적으로 안정적. 비브랜드 상업 쿼리인 중간 단계가 훨씬 민감
예시: 다른 단어, 같은 필요
두 사용자가 동일한 상업 목표로 완전히 다른 단어를 사용할 수 있다:
- 한 명: "200달러 이하의 최고 노이즈 캔슬링 헤드폰"
- 다른 한 명: "예산 범위의 귀를 덮는 헤드폰으로 좋은 노이즈 감소 성능이 있는 것은?"
표현은 변하지만 기저의 필요는 대부분 같다. 이 구분은 AI 브랜드 가시성에 중요하다. 표면상 사용자 표현은 무질서해 보이지만, 실제로는 의미상 가깝다. 단, 충분히 벗어나면 완전히 다른 브랜드 세트를 유발할 수 있다.
조사 방법
Peec AI는 1,754개 프롬프트, 37,804개 AI 응답, 5개 산업, 18개 세부 분야를 ChatGPT, Gemini, Perplexity, Google AI Mode, Google AI Overviews에서 분석했다.
두 병렬 연구
Study A: Rand Fishkin의 팔로워들이 작성한 288개 인간 프롬프트(두 가지 의도), 17k+ 채팅 결과
- 인간의 프롬팅 스타일이 얼마나 다양한지 드러냄
Study B: 18개 산업에서 54개 기본 프롬프트, 각각 수십 개의 미세한 코사인 유사도(cosine similarity) 단계 변형 생성, 총 1k+ 프롬프트와 20k+ 채팅
- 프롬프트의 작은 변화가 미치는 영향을 관찰
LLM 응답의 내재적 분산을 설명하기 위해 모든 프롬프트를 여러 번 실행했다.
핵심 발견 5가지
Insight 1: 인간 프롬프트는 표면상만 다름
두 개의 임베딩 모델(all-MiniLM-L6-v2, all-mpnet-base-v2)을 288개 인간 작성 프롬프트에 적용한 결과 동일한 패턴을 보임:
- 대부분의 인간 프롬프트가 높은 코사인 유사도로 밀집
- 사람들은 같은 의도를 다른 단어로 표현
- 큰 의미 편차를 보이는 프롬프트 비율 놀랍도록 작음(변형의 10% 미만)
구체적 수치:
- 약 88~92%의 인간 프롬프트 쌍이 0.50 이상의 코사인 유사도를 보임
- 약 95%가 0.40 이상
결론: 사람들은 같은 상업 필요를 많은 방법으로 표현하지만, 수학적으로 대부분 근본적으로 유사함
Insight 2: 단어 변화는 임계값을 넘어야만 브랜드 언급에 영향
기본 프롬프트 동안 언급된 모든 브랜드를 대상으로, 프롬프트를 미세한 단계로 변경할 때 평균 가시성의 변화를 관찰:
기준 집단 대비:
- 브랜드가 언급될 평균 확률: 4.9%
- 프롬프트가 가장 낮은 유사도 구간(0.35~0.39)으로 표류할 때: 2.40 퍼센트 포인트 감소(약 50% 상대 감소)
중요한 주의점: 이것은 대폭적인 감소이지만 왼쪽 꼬리에만 발생
- 프롬프트가 0.50~0.60 코사인 유사도 이상을 유지하면 AI 엔진에 따라 브랜드 가시성이 안정적
- 대부분의 인간이 자연스럽게 이 임계값보다 훨씬 위에서 타이핑하므로, 프롬프트 추적이 이 위험에 노출된 범위는 보이는 것보다 좁음
결론: 같은 의도와 의미 특성을 가진 프롬프트는 대체로 같은 브랜드를 같은 빈도로 언급
주의: 의미상 맹점
높은 유사도가 일치하는 의도와 같지는 않다. "Charleston 자동차 렌탈"과 "Charlestown 자동차 렌탈"은 95% 유사하지만 완전히 다른 상업 목표를 가짐. 핵심 한정사(location, product, demographic, brand)가 변경되면 새로운 의도로 취급할 것.
큰 프롬프트 세트의 경우 LLM을 판정자로 사용하여 이런 변화를 자동으로 확인할 수 있음.
Insight 3: 프롬프트 스타일이 브랜드 가시성에 영향
무엇을 묻는가만큼 어떻게 묻는가가 중요함 — 의도가 아닌 스타일이 AI가 표시하는 내용을 변경
형식이 중요:
- 비교, 표, 리스트, 순위를 요청하는 것이 개방형 질문보다 일관되게 더 많은 브랜드를 표시
- 순위 프롬프트는 평균 +20% 브랜드 언급 증가
키워드가 대화형을 능가:
- AI의 대화형 인터페이스에도 불구하고, 간결한 키워드 스타일 프롬프트("best CRM small business 2026")가 더 많은 브랜드 언급 유도(최대 +25% 평균 가시성)
- 키워드 프롬프트는 날카로운 상업 검색 기준점을 유지하지만, 페르소나 엔지니어링 프롬프트("당신은 IT 컨설턴트입니다…")는 종종 쿼리를 교육적 경로로 확대하여 브랜드 밀도 감소
제약 조건에 대한 답변 엔진의 반응:
- 예산이나 기능 제약을 추가하면 모델에 따라 다른 결과 도출
- ChatGPT와 Perplexity: 제약이 표시된 브랜드 수 감소
- Gemini와 Google AI Overviews: 제약이 브랜드 수 증가(추가 팬아웃 쿼리 유발 가능)
길이는 상관없음: 추가 채우기 단어나 대화형 단어 입력은 응답에 표시되는 브랜드에 사실상 영향 없음
결론: 프롬프트 추적에서 이런 스타일을 혼합하면 형식으로 태그해야 함
Insight 4: 중간 구매 단계가 실제 승리를 결정하는 곳
프롬프트 표현이 구매 여정 전체에 동등하게 중요하지 않음(추적할 프롬프트 선택이 정확한 표현보다 더 중요):
상단 단계(낮은 민감도):
- "CRM이란 무엇인가?"처럼 광범위한 카테고리 질문
- 매우 안정적. 표현 차이가 표시 브랜드를 거의 변경하지 않음
중간 단계(높은 민감도):
- "소규모 원격 팀을 위한 최고의 CRM"처럼 비브랜드 상업 쿼리
- 세부 사항에 매우 민감
- 0.60~0.65 유사도 구간에서도 언급 브랜드의 상당한 변화 관찰
하단 단계(거짓 안정성):
- 종종 브랜드 언급
- 표현 변화에 대한 안정성은 아마도 모든 것이 브랜드 또는 제품 이름(들) 주변에 고정되어 있기 때문
결론: 전체 상황을 포착하려면 MOFU 프롬프트의 더 많은 변형을 추적해야 함. TOFU와 BOFU는 더 적은 수의 프롬프트로 충분. 실제로는 25% TOFU, 50% MOFU, 25% BOFU를 의미할 수 있음
Insight 5: 답변 엔진마다 다르게 작동
표현 효과의 방향은 모든 엔진에서 일관되지만, 심각도는 다름:
- Gemini: 효과가 가장 빠르게 사라지며, 가장 낮은 유사도 구간에 집중
- Google AI Overviews: 가장 지속적인 중간 단계 민감도 표시. 작은 표현 변화가 다른 엔진보다 훨씬 더 가시성에 영향
- ChatGPT, Perplexity, Google AI Mode: 가시성 페널티가 더 광범위한 변형에 걸침. ChatGPT에서는 표현이 0.60~0.64 구간 아래로 떨어지는 순간 중간 단계 브랜드 손실이 발동
결론: 모델 전체 데이터 집계 시 주의. 각 엔진별 사진을 먼저 확보해야 함
측정 플레이북: 6단계
1. 조기에 단계별로 분류
상단 단계 쿼리는 카테고리 인지도를 위한 안정적인 기준선을 제공하고, 하단 단계 프롬프트는 브랜드 검색 환경을 모니터링한다. 그러나 표현 변화가 상업 중간 단계의 승패를 적극적으로 결정하므로, 여기서 현실을 포착하려면 절대적 표현 정확도와 더 큰 추적 볼륨 점유율이 필요
2. 구매자의 실제 표현에 고정
완벽한 기본 프롬프트는 없음. 올바른 기준점은 목표 의도 및 페르소나와 일치해야 함. 빠른 현실 확인: 동료 몇 명에게 정확히 그 쿼리를 자연스럽게 어떻게 타이핑할지 물어보기. 답변이 중요한 0.50 유사도 임계값 아래로 떨어질 위험이 있으면 표현이 너무 좁고 추가 기준점을 추적해야 함
3. 프롬프트 스타일 혼합 금지
형식, 아키타입, 제약 수준 각각이 기준을 변경함 — 리스트 프롬프트와 개방형 프롬프트는 같은 출발선을 공유하지 않음. 형식으로 프롬프트를 태그하여 사과와 사과를 비교할 수 있도록 함
4. 중간 단계의 제약 조건 세부 사항 주시
브랜드 고정이 없으면, 미세한 제약 변화(통합, 팀 규모, 예산 한정 추가)가 완전히 다른 브랜드를 표시하게 할 수 있음. 같은 페르소나 내에서 이러한 미묘함을 캡처하는 여러 프롬프트 추적
5. 왼쪽 꼬리는 추적하지 말 것
인간의 변형은 자연스럽게 밀집하며, 가시성은 프롬프트가 0.40~0.50 유사도 범위로 표류할 때만 급격하게 감소함. 대부분의 실제 구매자가 실제로 타이핑하는 밀집한 의미상 중간에 추적 예산을 집중
6. 각 AI 엔진별로 별도 보고
블렌디드 뷰를 만들기 전에 엔진별 그림을 확보. 그래야 가시성 변화가 광범위한 시장 변화인지 한 시스템의 알고리즘 특이성인지 구분 가능
이 연구가 증명하지 않는 것
패턴이 37,804개 AI 응답에서 일관됐지만, 다음 주의 사항 고려:
- 추세가 보장되지 않음: 이 백분율은 관찰된 강한 패턴 반영. 모든 쿼리에 대한 정적 규칙 아님
- 규제 산업은 다를 수 있음: 18개 세부 분야 테스트. 의료진료 같은 규제 카테고리가 더 엄격한 AI 안전 가드레일로 인해 다르게 작동할 가능성 있음
- 엔진은 지속적으로 변함: 정확한 백분율은 모델 진화 또는 그라운딩 시스템 변경에 따라 변함. 핵심 메커니즘(표현 임계값, 중간 단계 민감도, 스타일 기준선)만 유지됨
모든 변형을 추적하지 않고 AI 프롬프트 추적하는 방법
"모든 프롬프트가 고유하고" "정확히 청중이 어떻게 타이핑하는지 모르기 때문에" 프롬프트 추적을 꺼린다면 안심해도 됨. 표현 공간은 무작위 변형의 평평하고 혼란스러운 전개가 아니라 모양과 구조를 가짐.
의도와 모니터링하려는 관련 문맥을 알기만 하면 됨. 진정한 의미를 보고, 스타일을 분리하고, 단계별로 분류하고, AI 엔진들을 하나씩 읽으면 된다.