Reddit堅持數據收費或將封鎖搜尋引擎爬蟲
根據《華盛頓郵報》上週五報道,聚合新聞類網站Reddit正與AI巨頭商討數據付費事宜,如果雙方無法達成協議,Reddit可能會切斷面向谷歌、必應的服務,即禁止谷歌、必應等搜尋引擎的爬蟲從平台內取得內容。
這將迫使用戶登入Reddit帳號才能取得自己想要的資訊。也就是說,Reddit的內容將不會顯示在Google和必應的搜尋中。
對此,《華盛頓郵報》隨後的糾正報道,以及The Verge的最新報道指出,Reddit否認了上述報道中關於“強制用戶登錄平台,才能查看內容”的說法,至於“封殺搜索引擎爬蟲”,官方並未否認。消息人士還稱,“沒有搜尋(網站),Reddit也能生存。”
Reddit是美國人最常造訪的新聞網站,用戶可以在其中創建並分享內容,有「美國版百度貼吧」之稱,目前Reddit擁有超過13萬個活躍社區,根據該公司2020年底的數據,其擁有超過15億註冊用戶,4.3億月活躍用戶,以及5,200萬日活躍用戶。
訓練AIGC工具需要大量數據,而Reddit累積了大量用戶生成內容,都是AI優質訓練數據,這家公司由此覓食機。
4月份,Reddit宣布,將向使用其API訓練AI聊天機器人的公司收取數據使用費,其中便包含微軟、谷歌、OpenAI等;6月份,其高於行業平均水平的收費標準被爆出——每5000萬次API請求收取1.2萬美元。
如果說龐大的數據資產為Reddit提供了收費的可能性,其上市計劃則提示了Reddit進行收費的必要性。
此前知情人士說,Reddit的目標是在今年稍後最終上市——很可能是在下半年。Reddit和包括Instacart在內的其他公司正在更新他們的IPO文件,為市場狀況好轉時可能的IPO做好準備。
多方施壓AI巨頭數據免費時代告結?
當下,AIGC浪潮正席捲坐擁資料資產的公司,Reddit、X(前身為Twitter)等公司待價而沽。據了解,X的定價比Reddit更高,根據WIRED先前報道,X提供的套餐中最便宜的為:每月支付4.2萬美元可以訪問5000萬條推文。
報紙出版商為代表的公司選擇高築城牆。《華盛頓郵報》報道稱,自8月以來,至少有535家新聞機構(包括《紐約時報》、路透社和《華盛頓郵報》)安裝了攔截器,以防止其內容被OpenAI等公司抓取,用於訓練ChatGPT等產品。
其目的是相同的-希望在AIGC市場中分一杯羹。根據Semafor7月報道,擁有TheDailyBeast的媒體集團IAC試圖建立一個出版商聯盟,旨在透過訴訟或立法行動從AI公司贏得數十億美元。8月,NPR報導《紐約時報》也考慮對OpenAI提起訴訟。
除了大公司的收費要求,大型AI公司還面臨來自個人的壓力,大量作者、藝術家和軟體程式設計師正向其提出版權訴訟,要求賠償侵權損失並分享利潤。根據先前報導,前阿肯色州州長MikeHuckabee已作為原告加入了對Meta、微軟和彭博社的集體訴訟,指控他們使用盜版書籍來訓練AI。
彭博稱,到2032年,這一市場(數據收費市場)預計將達到1.3兆美元。
當然,收費背後,不僅僅是錢的問題,許多公司將數據使用視為一個關乎生存的問題,擔心AI用自家數據學到了東西,轉而挖走了自己的用戶。如針對程式設計師的問答平台Stack Overflow的執行長PrashanthChandrasekar表示,OpenAI推出GPT-4一個月後,隨著程式設計師轉向AI尋求編碼問題的答案,編碼社群Stack Overflow的流量下降了15%,他認為人工智慧已經接受了Stack Overflow資料的訓練。
最新消息顯示,Stack Overflow已經裁員28%。
目前,無論是傳媒集團還是主流社交平台,仍在與AI巨頭“拉鋸”,最終是否需要付費、如何收費,不同話語權的公司將得到不同的結果。