AI 수렴 문제: LLM이 마케팅을 평균화하는 방식

markwilliamscook.substack.com조회수 357일 전

핵심

LLM의 약점과 강점은 마케팅에 대해 대척점의 위험을 만든다. 약할 때는 어린아이도 풀 수 있는 문제를 틀리고, 강할 때는 모든 전략을 경쟁사의 평균으로 몰아간다. 마케팅에서는 평균이 가장 최악의 위치다.

LLM은 실제로 "생각"하지 않는다

통계 머신의 본질

LLM은 내부적으로 이전 토큰 수열을 보고 다음에 올 가장 확률 높은 토큰을 예측하는 통계 기계일 뿐이다
내적 독백, 세계 모델, 논리적 검증 절차가 없다. 오직 패턴 완성만 있다

학문적 증거

Apple 연구팀의 "The Illusion of Thinking" 논문: 최첨단 "추론" 모델도 퍼즐 복잡도가 일정 수준을 넘으면 정확도가 급격히 붕괴되며, 문제가 어려워질수록 토큰을 덜 사용하는 경향을 보임 (마치 포기하듯이)
GSM-Symbolic 연구: 정답을 바꾸지 않는 절을 수학 문제에 추가하기만 해도 성능이 65%까지 떨어짐. 추론처럼 보이는 것은 대부분 학습 데이터에 대한 패턴 매칭
LLM 실패 분류: "반대 방향 저주(reversal curse)" (A가 B라는 것은 알지만 B가 A라는 것은 틀림), "조합적 붕괴(compositional collapse)" (각 단계는 풀지만 연쇄하지 못함) — 모두 다음 토큰 예측 목표에서 통계적 패턴 완성을 추론보다 우선시하기 때문

문제: 익숙한 것은 잘하고, 새로운 것은 대참사

악명 높은 "세차장 질문" 사례:

질문: "차를 씻고 싶은데 가장 가까운 세차장이 100미터 거리다. 걷거나 운전해야 할까?"
5살 아이도 풀 수 있는 문제 (차는 세차장에 있어야 하는데, 차는 그곳에서 씻어야 함)
ChatGPT, Claude, Grok의 답변: 모두 걷라고 조언. 100미터밖에 안 되고, 환경도 보호하고, 운동도 되라고 설명
원인: "~미터 거리를 운전할 것인가 걸을 것인가"라는 학습 데이터를 많이 본 후 "운동하세요, 배출가스를 줄이세요"라는 보통 응답을 예측했을 뿐. 차가 세차의 대상이라는 핵심을 놓침

Gemini와 Grok의 "정답":

Gemini는 처음부터 맞게 답했다 — 이유: 그 질문이 인터넷에 널리 퍼졌고, Google은 인덱스 위에 앉아있어서 정답을 가장 먼저 학습
2주 후 Grok도 정답을 제시했다 — 논리 수련이 아니라, 정답이 이제 학습 데이터에 있었기 때문

핵심 인사이트

LLM이 "추론"하는 것처럼 보일 때, 실제로는 인터넷상에서 많은 사람이 이미 풀어낸 문제의 합의 답변을 암송하고 있는 것이다
합의 답변이 필요할 때는 괜찮다. 필요하지 않을 때는 재앙이다

위험: LLM이 "잘하는" 영역

데이터 공유 → 전략 수렴

LLM이 작업에 "좋다"는 것은 그 작업 방법을 보여주는 대량의 학습 데이터가 있다는 뜻이다. 모든 최첨단 모델이 대략 같은 인터넷 스크래이프로 학습되었다면, 모델의 출력물은 정의상 거의 모두가 이미 하는 것의 평균값 근처에 위치할 것이다.

마케팅에서 이것은 최악의 죄다 — 전체 직업이 두드러지기, 선택받기, 기억되기에 관한 것이기 때문이다. 브랜드 음성, 캠페인 아이디어, 헤드라인, "2026년 SEO 10가지 팁" 기사가 경쟁사와 구별 불가능한 순간, 마케팅을 하는 것이 아니라 벽지가 되는 것이다.

수렴의 메커니즘

Jeremy Daly의 정리: 수렴 = 공유 데이터 + 공유 인센티브 + 빠른 반복 루프

3개 회사가 같은 학습 데이터를 같은 모델에 붓고, 같은 참여도 지표로 최적화하고, 편차를 샌드페이퍼질할 정도로 빠른 반복 주기를 가지면, 차별화된 전략이 아니라 3가지 브랜드 색상의 동일 전략이 나온다

과학적 증거

Columbia 및 MIT 연구자들:

LLM 에이전트에게 정체성 정의 선택을 맡기면 사람들의 선택이 더 인기 있는 옵션으로 이동
행동과 선호의 독특성 감소
논문 제목: "The Basic B* Effect"** (매우 솔직한 제목)

"Science Advances" 논문:

생성 AI는 개별 창의성을 높이지만, 집단 차원의 새로운 콘텐츠 다양성을 감소
각 작가의 이야기는 조금 나아지지만, 전체 집단의 이야기는 같아 보임

LLM "모드 붕괴(mode collapse)" 연구:

같은 적은 수의 완성이 반복되고, 많은 유효한 답변이 존재해도 마찬가지

역설적 위험

LLM이 당신에게 보상하는 것 — 속도, 유창성, 일관성, "모범 사례" — 이 정확히 마케팅을 조용하게 베이지색으로 변환할 것이다.

실제 사례: 영국 하원(House of Commons)

Pimlico Journal 분석: 2007~2025년 Hansard(의회 기록)의 모든 단어 추적, ChatGPT 특정 문구의 Z점수 추적

ChatGPT 스타일 문구들:

"I rise to speak" (연설을 시작하며)
"Is not merely" (단순히 ~가 아니라)
"Navigating" (항해하며/극복하며)
"Underscores" (강조한다)
"Streamline" (효율화)
"Not just a [X], but a [Y]"
"Bustling" (북적대는)

변화:

이 문구들은 15년 동안 기준선을 따라 움직이다가 ChatGPT 출시(2022년 11월) 직후 거의 정확하게 수직 상승
"I rise to speak"만 2025년에 Z점수 3.60에 도달
텔레그래프 헤드라인: "ChatGPT triggers surge in MPs using AI-written speeches"

민주주의 함의는 제쳐두고 (좋지 않다), 마케팅 관점에서 보면:

650명 개인(각자 선거구, 관심사, 자신의 브랜드 이미지가 있고, 다음 선거에서 고용을 유지할 만큼 기억될 필요)
LLM에 초안 작성을 맡긴 후 같은 사람처럼 들리기 시작
그 사람은 당신이 본 모든 LinkedIn 게시물도 쓰는 사람

이것이 수렴이다. 음모나 게으름, 멍청함이 필요하지 않다. 입력(같은 학습 데이터), 인센티브(같은 지표), 루프(발행 → 어떤 게 작동하는지 봄 → 반복)가 사용자 전체에 걸쳐 대략 유사하기만 하면 된다. 마케팅에서는 거의 항상 그렇다.

당신의 경우

범주 페이지 H1, 메타 설명, 블로그 도입부, 캠페인 컨셉, 톤오브보이스 가이드라인, "사고 리더십", 클라이언트 피치 데크에 같은 차트를 그려보라. 그리고 정직하게 묻자: 고객이 선택할 것이 뭐가 남았는가?

반대 사례: MS Paint의 힘

실험 설정

저자는 우연히 역실험을 실행했다:

LinkedIn에서 무청탁 #SEO 팁과 Core Update 요약 게시
완전히 형편없는 MS Paint 그림 포함 (에이전시의 세련된 "장난기 있는 삽화" 아님)
진짜 형편한 스틱맨 그림("SEO"라고 레이블, 로봇을 가리킴, "mspaint.exe로 그린 것")

결과

위의 게시물:

35,363 노출수
448개 반응
46개 댓글
24회 리포스트

그림이 좋아서가 아니다 — 객관적으로 좋지 않다. 수동 제작임이 명확하기 때문이다 (AI 생성 영웅 이미지로 폭격당한 플랫폼에서, 모두 다양한 팀이 대시보드 앞에서 하이파이브하는 것처럼 보임).

일반적 댓글

"이 이미지들을 사랑해요, 따뜻한 느낌이 들어요" 또는 "자신의 것을 만드는 무언가에 대해"

정확히 요점이다: 콘텐츠가 사람이 명확히 손으로 만들었다는 신호를 보내는 것에 대한 증가하는 식욕이 있다.

Fight Club 인용구

Tyler Durden: "tiny bubbles and imperfections가 있는 유리 접시, 정직하고 단순하고 열심히 일하는 어디선가의 원주민이 만들었다는 증거"

원래는 중산층 소비주의에 대한 농담
이제는 실제 LinkedIn 콘텐츠 전략

실행 전략

1. LLM을 의도적으로 사용하되 평균 받아들이기

상품 작업에 사용 (평균의 비용 = 0):

규모에서 대체 텍스트 수정
회의 요약
기술적으로 틀린 클라이언트에게 정중한 답장 초안

LLM은 탁월하고, 시간을 절약하고, 마세요.

아무도 당신의 내부 Slack 요약 품질을 기반으로 브랜드를 선택하지 않는다.

2. 평균이 치명적인 곳에서 LLM 거부

절대 금지:

브랜드 포지셔닝
헤드라인
훅(대표성/진입점)
캠페인 컨셉
톤오브보이스
편집 각도
인간이 경쟁사와 당신 사이에서 선택할 곳

모델이 결정하도록 놔두면, 학습 코퍼스의 경쟁사의 평균을 명시적으로 선택한 것이다. "경쟁사의 평균이 되라"는 전략이 맞는 경우는 없다.

3. LLM 출력을 의도적으로 다르게 만들기 위한 기준선으로 취급

연습:

모델의 첫 번째 답변을 요청
"이 반대는 무엇처럼 보일까?"를 물어보기
"오직 우리 브랜드는 여기서 무엇을 할까?"를 물어보기

모델의 첫 직관 = 합의
당신의 직업 = 합의를 알되 그것이 되지 않기로 선택

4. 모델이 가지지 않은 입력에 투자

전략적 자산:

전유 데이터(proprietary data)
1차 고객 인터뷰
당신의 자체 실험
블로깅되지 않은 내부 의견

이들이 해자다. "공개 스크래이프에서 경쟁사가 추출할 수 있는 모든 것"은 인사이트가 아니라 벽지다.

Jeremy Daly의 수렴 맵도 같은 점을 소프트웨어 쪽에서 만든다: 입력이 비대칭이고 피드백 루프가 느릴 때 수렴 압력이 가장 약하다.

5. 출력에 눈에 띄는 인간 지문 남기기

증거:

그림
구체적인 일화
어색한 문구 선택
추종자를 잃을 수 있는 진정성 있는 의견
유리의 거품(bubbles in the glass)

사람들은 이제 사람이 그것을 만들었다는 증거를 능동적으로 스캔하고 있다. "증거"의 기준은 낮지만, 있어야 한다.

6. 유창함과 지능 혼동 금지

LLM이 당신이 읽을 수 있는 것보다 빨리 문단을 생산하는 것은 더 똑똑한 게 아니다
더 빠른 것이다
그것들은 다른 것이다

세차장 질문은 카나리아다: 새로운 것, 실제로 세계 모델링이 필요한 것, 올바른 답변이 인기 답변이 아닌 곳은 모두 기계를 끄고 당신의 머리를 써야 하는 곳이다.

결론

LLM은 탁월한 발음(diction)을 가진 토큰 예측기다.

약할 때: 아이가 못할 만큼 실패하면서 자신 있게 세차장에 걷도록 말한다 (그것이 단어들이 보통 말하기 때문)
강할 때: 더 조용하고 비싼 방식으로 실패한다 — 모든 사용자를 같은 평균 답변으로 천천히 당긴다 (마케팅에서는 감당할 수 없는 것)

AI 수렴 문제: 공유 데이터 + 공유 인센티브 + 빠른 피드백 루프 = 모두가 모두처럼 들음

우리는 이미 정부에 스며드는 것을 보고 있다. 당신의 범주에도 볼 것이다.

질문: 당신의 전략이 평균화되는 것인가, 아니면 사람들이 베이지를 더 이상 견딜 수 없어서 손을 뻗는 것인가?

로봇처럼 생각하지 마라.