← 목록으로

AI 에이전트와 챗봇의 탐색 범위: 깊이 있는 조사 능력 테스트

SEOchrisgreenseo.substack.com조회수 012일 전

핵심

대부분의 AI 에이전트는 경제성 지향적이며 근본적으로 호기심 있지 않다. 시각적으로 보이는 콘텐츠를 요약하고 멈추는 경향을 보이며, 브라우저 접근 권한이 있어도 자발적인 탐색 행동이 보장되지 않는다.

테스트 설계 및 초기 결과

테스트 방식

테스트 항목

에이전트가 화면에 보이는 기사 콘텐츠를 넘어 조사할 수 있는지 확인:

초기 발견

에이전트 탐색 깊이 분석

탐색 수준의 단계

테스트 결과를 "탐색 사다리"로 표현하면, 대부분의 에이전트는 1~2단계에 도달했으며, 도구/모드나 프롬프트가 그 행동을 더 유도하지 않는 한 3~5단계에 도달하는 경우는 매우 드물었다. 숨겨진 페이지를 조사하려는 도약을 한 도구는 소수였으며, 그 경우에도 일관성이 없었다.

프롬프트의 영향

프롬프트 자체는 챗봇/에이전트가 반환하는 내용에 명백한 영향을 미쳤다. 표현 방식이 도움이 되었으나 에이전트 행동을 보장하지는 못했다. "중요한"이 보통 중요한 시각적 콘텐츠로 해석되었으며, 페이지 아티팩트(artifact)로는 해석되지 않은 것으로 보인다. 에이전트가 프롬프트 주입(prompt injection)을 완화하기 위해 일종의 해석을 수행했을 가능성이 있다.

수정된 프롬프트를 이용한 재테스트

원본 프롬프트가 너무 광범위할 수 있다는 판단 하에, 다음과 같이 수정:

"이 페이지를 신중하게 검사하고 관련된 개념을 이해하는 데 관련이 있다고 생각하는 것을 확인하라"

더 agentic browsing을 수행할 수 있고 의향이 있는 세 가지 도구로 이 테스트를 세 번 재실행한 결과:

에이전트 행동은 고정적이지 않았으며, 실행마다, 모드마다, 그리고 아마도 내부 도구 결정에 따라 달랐다.

에이전트 행동의 작동 가정

기본 가정

에이전트는 경제적(economical)이며, 근본적으로 호기심 있지 않다. 일반적인 기사처럼 보이는 페이지의 경우, 대부분의 에이전트는 시각적으로 보이는 것을 요약하고 계속 진행한다.

가능한 이유들

호기심 트리거

에이전트가 더 깊이 파고 들 수 있는 이유를 찾는 것은 "호기심 트리거" 같은 것으로 보인다. 이는 다음 요소들의 영향을 받을 가능성이 높다:

이런 트리거가 명확하지 않으면, 그 에이전트가 충분히 깊이 있게 가거나 모든 가치 있는 것을 표면화할 정도로 충분히 노력할지 알 수 없다. 에이전트가 작업을 완료했다고 생각하면, 멈춘다.

현재 증거가 뒷받침하는 결론

실제적 함의

주요 권장사항

에이전트가 무언가를 발견하기를 원한다면, 맥락상 충분히 관련이 있어서 추가 검사를 정당화할 필요가 있을 것 같다. 달리 말해, 에이전트는 자발적으로 탐색하지 않으며, 주어진 작업을 완료한다고 생각한다. 명확하고 명백하게 하거나, 놓쳐질 위험을 감수해야 한다.

일반화의 한계

모든 에이전트나 모든 AI 챗봇에 대해 큰 주장을 하기에는 충분하지 않다. 그러나 일반적인 AI 챗봇 추천 트래픽이 기본적으로 콘텐츠의 전체 브라우저 렌더를 포함할 가능성은 낮다는 확신이 점점 커지고 있다. 그럴 수 있지만, 그것이 보통 그렇다는 의미는 아니다.

향후 필요한 테스트

본질적인 질문

더 나은 질문은 "에이전트가 호기심 있는가?"가 아니라, **"에이전트가 더 깊이 있는 검사가 가치 있다고 결정하게 하는 것은 무엇인가?"**이다. 더욱 중요하게는, **"이 중 얼마나 우리가 영향을 미칠 수 있는가?"**이다.

초기 테스트(v1)와 프롬프트 주입 위험

초기 테스트(v1)는 여러 AI 챗봇이 페이지를 프롬프트 주입(prompt injection) 또는 에이전트 조작 시도로 식별할 수 있음을 보여주었다. 추가 맥락이 포함되어 있는 것처럼 보이는 링크들을 클릭하게 하려고 시도했으며, 고유 식별자가 에이전트가 더 깊이 파고 들었는지를 "확인"하는 데 도움이 되었지만, 덫처럼 보였으므로 충분한 경우에 덫으로 취급되었다. 즉, v1은 에이전트의 호기심보다는 "이것은 허니팟/프롬프트 주입처럼 보인다"를 인식하는 에이전트의 능력을 측정하고 있었을 가능성이 있다. v1은 기준선으로는 유용하지만, 에이전트 호기심의 자연스러운 테스트로서는 약점이 있다.