Reddit CEO "LLM은 Reddit 데이터 없이 존재하지 않았을 것"

searchenginejournal.com조회수 359일 전

핵심

Reddit CEO 스티브 허프만은 대규모 언어모델(LLM)이 "우리가 알고 있는 형태로는 Reddit 없이 존재하지 않았을 것"이라고 주장했다. Fast Company의 혁신기업 정상회담 인터뷰에서 Reddit의 사용자 생성 데이터를 AI의 "현대식 석유"라고 표현했다.

Reddit 데이터의 AI 생태계 가치

데이터 중요성: 허프만은 "LLM은 Reddit 없이 현재 형태로 존재하지 않을 것"이라며 Reddit이 LLM 학습 데이터의 가장 큰 공급원 중 하나이자, 학습 데이터와 추론 데이터 모두의 주요 출처라고 설명했다.
인용도: Reddit이 모든 모델에서 가장 많이 인용되는 플랫폼이라 주장했으며, 이는 AI 인용 데이터를 추적하는 회사인 프로파운드(Profound)의 조사에 따른 것이라고 밝혔다.
콘텐츠의 본질: 허프만은 "인공지능은 실제 지능 없이는 존재할 수 없다"며 LLM의 작동 원리를 설명했다. "이 모델들은 기본적으로 단순하며, 엄청난 규모로 다른 곳에서 소비한 것을 재생할 뿐이고, 그 소비의 상당 부분은 Reddit의 인간관계 대화다. Reddit의 대화는 자연스럽고 거의 모든 주제를 다루기 때문"이라고 했다.

라이선싱 협력과 법적 조치

구글·OpenAI와의 거래: Reddit은 2024년 Google과 OpenAI와 데이터 라이선싱 계약을 체결했다. 허프만은 이 두 회사가 Reddit의 첫 AI 데이터 거래 파트너였다고 언급했으며, 2년 전의 그 거래 이후 추가 계약을 발표하지는 않았다.
- "우리가 Google과 OpenAI와 원래의 두 거래를 했을 때가 2년 이상 전이었다. 우리와 그들이 많은 것을 배웠다. 세상 전체도 많이 배웠다. 특히 Reddit 데이터가 얼마나 가치 있고 얼마나 유용한지를 배웠다. 그래서 우리는 그 부분에서 매우 신중하고 선별적이려고 노력 중이다. 하지만 네, 우리는 사업을 하려고 열려 있다."
라이선싱하지 않은 기업들에 대한 소송: Reddit은 Anthropic을 캘리포니아 고등법원에 고소했으며, Reddit 콘텐츠의 무단 사용과 Reddit 이용약관 위반을 주장했다. 또한 남부 뉴욕 지방법원에서 Perplexity와 세 개의 데이터 수집 업체를 상대로 연방 소송을 제기했으며, DMCA 반우회 위반 및 관련 주장을 들었다.
협력 vs. 소송: 허프만은 두 그룹 사이의 선을 그었다. "Google과 OpenAI처럼 우리가 좋은 관계를 가진 회사들과는 실제로 거래를 할 수 있고, 우리 사용자를 대신해 우리 데이터의 사용과 접근에 대한 보안 조치를 할 수 있으며, 다음 세대 인터넷의 제품을 만드는 데 협력할 수 있다"고 말했다. 반면 "모든 회사가 협력 파트너가 되려고 하지는 않기 때문에 안타깝게도 우리는 다른 방법, 즉 소송으로 가야 한다"고 덧붙였다.
상용 이용 원칙: 허프만은 Reddit의 상용 이용에 대한 입장이 간단하다고 말했다. "우리 데이터의 상용 이용에는 상용 조건이 필요하다." Reddit은 2023년 상용 API 접근에 대한 요금을 부과하기 시작했으며, 이는 현재의 라이선싱 거래에 앞선 조치였다. 반면 Reddit은 연구원과 대학에는 계속 무료 데이터 접근을 제공하고 비상용 이용에는 유연한 태도를 유지하려고 노력 중이다.

Reddit의 개방성 변화

허프만에 따르면, Reddit이 데이터 공유에 대한 의사를 바꾼 것은 AI 산업이 오픈 연구에서 벗어났을 때였다. 이전 보도에 따르면 Reddit은 Google을 제외한 많은 검색 엔진 크롤러의 접근을 제한했다.

역사적 배경: "역사적으로 Reddit은 우리가 오픈 인터넷에서 태어났고 Reddit은 매우 개방적이고 관대했다. 솔직히 말해서 AI 회사들이 여전히 기본적으로 개방적이고 오픈소스이며 오픈 연구를 했다면 우리는 오늘 다른 입장에 있을 것이라고 생각한다."
추적 불가능 문제: 허프만은 Reddit이 자신의 데이터가 어떻게 사용되는지 더 이상 추적할 수 없다는 점이 문제라고 설명했다. "사람들이 우리 데이터를 사용하고 있는데 그것이 무엇에 사용되는지 알 수 없다."
추가 우려사항: 상용 조건 외에도 Reddit은 자신의 데이터가 사용자를 식별하거나, 광고로 타겟팅하거나, 플랫폼을 대체하거나 우회하는 데 사용되기를 원치 않는다.

Reddit의 자체 AI 활용

허프만은 그가 "역설"이라고 부르는 상황을 인정했다. Reddit의 콘텐츠가 외부 AI 시스템에 전력을 공급하지만, Reddit 자체도 플랫폼 전역에서 AI를 사용한다.

Reddit Answers: 가장 눈에 띄는 제품은 LLM 기반 검색 기능인 Reddit Answers다. 게시물과 댓글을 읽은 후 사용자 인용문을 그대로 인용한 답변으로 구성한다. 허프만은 이것이 결정적인 답변이 없는 질문을 위해 설계됐다고 언급했다.
- "Reddit Answers가 하는 일은 Reddit에만 고유한 몇 가지가 있다. 첫째, 기본적으로 실제 사람들의 직접 인용문으로만 답변한다. 둘째, 여러 관점을 제시하려고 한다. 왜냐하면 Reddit에 있는 전체 포인트가 인간의 관점을 원하기 때문이다."
콘텐츠 조정: 백그라운드에서 Reddit은 콘텐츠 조정과 분류를 위해 AI를 사용한다. LLM은 댓글이 괴롭힘으로 넘어가는지 평가할 수 있으며, 허프만은 이것이 이전에는 주관성 때문에 어려웠다고 설명했다.
- "인터넷에서 가장 나쁜 일은 인터넷에서 가장 나쁜 콘텐츠를 보고 그것이 온라인에 있을 수 있는지를 결정하는 것이었다. 그 일은 사라져간다."

허프만은 AI 조정을 Reddit의 커뮤니티 조정 모델을 대체하기 위한 것이 아니라, 최악의 콘텐츠 노출을 줄이는 방법으로 제시했다.

AI 작성 게시물의 모호한 영역

허프만은 사용자가 AI 도구로 콘텐츠를 작성한 후 Reddit에 붙여넣는 것의 과제도 다뤘다. 그는 이것이 자동화된 봇 활동과는 다르다고 강조했다.

인간성 vs. 봇: "인터넷 전역, Reddit뿐만 아니라 내가 보는 가장 짜증나는 것은 누군가가 ChatGPT로 자신의 게시물이나 댓글을 작성해서 Reddit에 붙여넣는 것이다. 그게 봇인가? 확실히 봇처럼 느껴지지만, 그 뒤에 인간이 있다."
의도가 중요: "그 아이디어 뒤에, 콘텐츠 뒤에, 프롬프트 뒤에 인간이 있다는 것이 우리에게 매우 중요하다"고 허프만은 말했다. 하지만 사용자가 자신의 게시물 작성을 위해 AI에 의존할 때 "문체가 형편없다"고도 언급했다.
커뮤니티 자정: Reddit은 이 문제를 다루기 위한 정책을 만드는 대신, 커뮤니티가 이 문제를 처리하도록 할 것으로 보인다. 사용자들은 이미 AI 작성 콘텐츠에 downvote를 하고 댓글에서 이를 지적하고 있다. 허프만은 Reddit이 "사용자들과 subreddit들을 더 권한을 주어 그런 종류의 콘텐츠를 완전히 거부하도록 할 것"이라고 말했다.
학습 과정의 비유: 허프만은 더 광범위한 질문을 계산기와 수학 수업에 비유했다. "요즘 아이들은 AI로 글쓰기를 배우고 있다. 우리가 그것에 대해 뭘 할 건가? 우리는 모두 함께 배워야 할 것 같다."

현재 진행 중인 상황

허프만은 새로운 데이터 거래에 대해 "항상 모든 사람과 대화하는 중"이라고 Fast Company에 말했으나, 세 번째 계약에 대한 힌트는 주지 않았다.

Reddit의 Anthropic과 Perplexity에 대한 소송은 계속 진행 중이다. Anthropic 사건은 3월에 연방 법원 재심 청문회의 대상이었다.