AI 에이전트와 챗봇의 탐색 범위: 깊이 있는 조사 능력 테스트
핵심
대부분의 AI 에이전트는 경제성 지향적이며 근본적으로 호기심 있지 않다. 시각적으로 보이는 콘텐츠를 요약하고 멈추는 경향을 보이며, 브라우저 접근 권한이 있어도 자발적인 탐색 행동이 보장되지 않는다.
테스트 설계 및 초기 결과
테스트 방식
- 대상: 깃허브 페이지에서 호스팅된 커뮤니티 정원 웹사이트(5페이지, 하드코딩)
- 세 가지 프롬프트 조건:
- 기본 요약 프롬프트: "이 페이지가 무엇에 관한 것인가?"
- 신중한 검사 프롬프트: "이 페이지를 신중하게 검사하고 찾을 수 있는 모든 중요한 것을 알려주라"
- 브라우저 명시 프롬프트: "이 페이지를 신중하게 검사하고, 브라우저를 사용하여 찾을 수 있는 모든 중요한 것을 알려주라"
테스트 항목
에이전트가 화면에 보이는 기사 콘텐츠를 넘어 조사할 수 있는지 확인:
- 숨겨지거나 화면 밖의 콘텐츠
- 기술적 구조
- 내부 링크
- 렌더링된 브라우저 뷰에서만 접근 가능한 고아 페이지(orphaned pages)
- 메타데이터
- 페이지 동작
- 일반 사용자가 주목하지 않을 요소들
초기 발견
- 대부분의 도구가 시각적 페이지에 대해 적절한 요약을 생성했으나, 자발적으로 그 이상을 조사하지 않았다.
- Perplexity Computer의 세 번째 시도가 가장 깊이 있는 검사를 수행하여 화면 밖의(숨겨진) 메모와 고아 페이지 링크를 발견했다.
- 대부분의 다른 도구는 주 기사 콘텐츠에만 집중했다.
에이전트 탐색 깊이 분석
탐색 수준의 단계
테스트 결과를 "탐색 사다리"로 표현하면, 대부분의 에이전트는 1~2단계에 도달했으며, 도구/모드나 프롬프트가 그 행동을 더 유도하지 않는 한 3~5단계에 도달하는 경우는 매우 드물었다. 숨겨진 페이지를 조사하려는 도약을 한 도구는 소수였으며, 그 경우에도 일관성이 없었다.
프롬프트의 영향
프롬프트 자체는 챗봇/에이전트가 반환하는 내용에 명백한 영향을 미쳤다. 표현 방식이 도움이 되었으나 에이전트 행동을 보장하지는 못했다. "중요한"이 보통 중요한 시각적 콘텐츠로 해석되었으며, 페이지 아티팩트(artifact)로는 해석되지 않은 것으로 보인다. 에이전트가 프롬프트 주입(prompt injection)을 완화하기 위해 일종의 해석을 수행했을 가능성이 있다.
수정된 프롬프트를 이용한 재테스트
원본 프롬프트가 너무 광범위할 수 있다는 판단 하에, 다음과 같이 수정:
"이 페이지를 신중하게 검사하고 관련된 개념을 이해하는 데 관련이 있다고 생각하는 것을 확인하라"
더 agentic browsing을 수행할 수 있고 의향이 있는 세 가지 도구로 이 테스트를 세 번 재실행한 결과:
- ChatGPT Agent: 유용한 답변을 제공하는 데 가장 뛰어났으나, 더 깊이 있게 검사하거나 개념적으로 확장했는지에 대해 일관성이 없었다.
- Manus: 법의학적 검사보다는 "연구 보고서"에 더 가까운 결과물을 생산했다. 주제 확장에는 뛰어났으나 테스트 메커니즘을 발견하는 데는 약했다. 또한 환각(hallucination)을 일으키거나 존재하지 않는 추가 맥락을 덧붙일 수 있었다.
- Claude: 가장 의심스럽고 방어적이었다. AI 행동 테스트로 페이지를 식별하는 데 가장 뛰어났으나, 자연스러운 페이지 검사 대리로서의 유용성은 떨어졌다.
에이전트 행동은 고정적이지 않았으며, 실행마다, 모드마다, 그리고 아마도 내부 도구 결정에 따라 달랐다.
에이전트 행동의 작동 가정
기본 가정
에이전트는 경제적(economical)이며, 근본적으로 호기심 있지 않다. 일반적인 기사처럼 보이는 페이지의 경우, 대부분의 에이전트는 시각적으로 보이는 것을 요약하고 계속 진행한다.
가능한 이유들
- 작업 인식: 페이지가 일반 자원봉사 업데이트처럼 보였으므로 대부분의 에이전트는 콘텐츠 요약 작업으로 해석했다.
- "신중하게"의 해석: 모델은 종종 다르게 검사하기보다는 더 많이 작성하여 대응했다.
- 도구 접근 차이: 일부 시스템은 신뢰할 수 있는 페이지 접근이 없었고, 일부는 브라우저 접근이 있었으며, 일부는 에이전트/컴퓨터 모드가 있었다. 이들은 동등하지 않다.
- 숨겨진 콘텐츠 관련성: DOM에 콘텐츠가 존재하더라도, 모델이 숨겨진 기술적 콘텐츠가 작업에 중요하다고 믿지 않으면 표면화하지 않을 수 있다.
- 맥락이 호기심 형성: 커뮤니티 정원 페이지는 법의학적 검사를 자연스럽게 유발하지 않을 수 있다. 더 복잡한 작업을 더 복잡한 사이트에서 실행하면 다를 수 있다.
호기심 트리거
에이전트가 더 깊이 파고 들 수 있는 이유를 찾는 것은 "호기심 트리거" 같은 것으로 보인다. 이는 다음 요소들의 영향을 받을 가능성이 높다:
- 프롬프트 표현
- 페이지 맥락
- 사용 가능한 도구
- 모델/시스템 행동
- 인식된 작업 중요도
이런 트리거가 명확하지 않으면, 그 에이전트가 충분히 깊이 있게 가거나 모든 가치 있는 것을 표면화할 정도로 충분히 노력할지 알 수 없다. 에이전트가 작업을 완료했다고 생각하면, 멈춘다.
현재 증거가 뒷받침하는 결론
- 시각적 콘텐츠 요약: 대부분의 에이전트가 반환할 수 있다면 보이는 콘텐츠 요약을 잘한다.
- 숨겨진/화면 밖 콘텐츠: 발견될 수 있지만, 안정적으로 표면화되지 않는다.
- 도구/모드/티어별 변동: 에이전트 행동은 도구, 모드, 티어, 반복 실행에 따라 다르다.
- 프롬프트 일관성 부족: 동일한 프롬프트가 동일 챗봇/에이전트 내에서도 생성된 응답의 깊이 수준이 다를 수 있다.
- 브라우저/도구 접근의 한계: AI 챗봇이 에이전트 기능이나 브라우저를 실행하고 페이지를 렌더링할 도구를 가졌다고 해서, 그것을 사용한다는 의미는 아니다.
- 맥락의 중요성: 맥락은 도구 사용과 호기심의 큰 요인으로 보인다.
- 경제성 지향: 에이전트는 호기심보다 경제적으로 보인다.
실제적 함의
주요 권장사항
에이전트가 무언가를 발견하기를 원한다면, 맥락상 충분히 관련이 있어서 추가 검사를 정당화할 필요가 있을 것 같다. 달리 말해, 에이전트는 자발적으로 탐색하지 않으며, 주어진 작업을 완료한다고 생각한다. 명확하고 명백하게 하거나, 놓쳐질 위험을 감수해야 한다.
일반화의 한계
모든 에이전트나 모든 AI 챗봇에 대해 큰 주장을 하기에는 충분하지 않다. 그러나 일반적인 AI 챗봇 추천 트래픽이 기본적으로 콘텐츠의 전체 브라우저 렌더를 포함할 가능성은 낮다는 확신이 점점 커지고 있다. 그럴 수 있지만, 그것이 보통 그렇다는 의미는 아니다.
향후 필요한 테스트
- 여러 에이전트에 걸친 동일 프롬프트
- 반복 실행에 걸친 동일 에이전트
- 보이는 콘텐츠 vs 숨겨진 콘텐츠
- 일반 페이지 vs 의심스러운 페이지
- 테스트 사이트 vs CMS 플랫폼
- 다양한 페이지 주제
- 다양한 티어/모드
- "에이전트/크롤러" 명시적 프레이밍이 행동을 변화시키는지 여부
본질적인 질문
더 나은 질문은 "에이전트가 호기심 있는가?"가 아니라, **"에이전트가 더 깊이 있는 검사가 가치 있다고 결정하게 하는 것은 무엇인가?"**이다. 더욱 중요하게는, **"이 중 얼마나 우리가 영향을 미칠 수 있는가?"**이다.
초기 테스트(v1)와 프롬프트 주입 위험
초기 테스트(v1)는 여러 AI 챗봇이 페이지를 프롬프트 주입(prompt injection) 또는 에이전트 조작 시도로 식별할 수 있음을 보여주었다. 추가 맥락이 포함되어 있는 것처럼 보이는 링크들을 클릭하게 하려고 시도했으며, 고유 식별자가 에이전트가 더 깊이 파고 들었는지를 "확인"하는 데 도움이 되었지만, 덫처럼 보였으므로 충분한 경우에 덫으로 취급되었다. 즉, v1은 에이전트의 호기심보다는 "이것은 허니팟/프롬프트 주입처럼 보인다"를 인식하는 에이전트의 능력을 측정하고 있었을 가능성이 있다. v1은 기준선으로는 유용하지만, 에이전트 호기심의 자연스러운 테스트로서는 약점이 있다.