Reddit CEO表態堅決反對AI公司無償採集內容用於培訓
Reddit 一直在採取行動,打擊為人工智慧訓練目的而瘋狂抓取其網站的公司。 Reddit的理念是,人工智慧公司利用自己並不擁有的資源開發大型語言模型,可以從中獲利數百萬甚至數十億美元。這就好比有人從伐木場拿走兩乘四的木頭蓋房子,只因為院子裡沒有上鎖的大門。但這個問題遠遠超出了Reddit 的範疇,也是開放網路迄今如何運作的核心問題。
機器人排除協議是一種網路標準,用於控制和管理網路爬蟲和機器人對網站的存取。它由robots.txt 檔案定義,告訴搜尋引擎網站的哪些部分可以被抓取或索引,幫助網站管理員保護敏感內容並有效管理流量。不過,它是在榮譽系統上運作的,幾乎沒有強制執行的方法。
上週,Ars Technica 報導,除了Google之外,Reddit 的貼文並沒有出現在任何搜尋引擎中。 Reddit 已經與Alphabet簽訂了價值6000 萬美元的授權協議,將其內容用於培訓,這並不是什麼大秘密,與此同時,在過去一年裡,Reddit 在Google搜尋中的排名越來越靠前(交換條件,或許不是……)。
該公司最近還通知用戶,它更改了robots.txt 文件,以排除沒有權限存取其資料的機器人和爬蟲。 Reddit 執行長 Steve Huffman)說,他相信網路是開放的,但現在有公司利用搜尋引擎網路爬蟲來搜刮資訊以牟利,這與它們的歷史用途大相徑庭。 “赫夫曼告訴The Verge:”我認為,搜尋引擎的傳統價值交換方式已經改變。搜尋與總結、訓練正在融合,以抓取換取流量回流的價值交換正變得泥沙俱下.”
赫夫曼說,在這一點上,阻止不願為數據採集付費的公司一直是”非常麻煩的事情”,這也促使Reddit 對robots.txt 進行了修改。在大多數情況下,該公司都尊重Reddit 的意願,包括微軟、Anthropic 和Perplexity 在內的幾家公司已經就授權其內容進行了談判。
霍夫曼說,讓他最頭痛的問題是,有些公司在取得Reddit 的資料後,又透過其API 將這些資料賣給了其他人工智慧公司。他特別提到微軟人工智慧執行長穆斯塔法-蘇萊曼(Mustafa Suleyman)最近將網路上的所有公共資料比喻為”免費軟體”。
赫夫曼說:”微軟、Anthropic 和Perplexity 都表現得好像互聯網上的所有內容他們都可以免費使用。這就是他們的真實立場。”雖然微軟必應已經很客氣地尊重了Reddit 屏蔽其爬蟲的決定,但該公司還是不忘嘲諷一番。
「Reddit阻止必應抓取他們的網站進行搜索,偏向於另一個搜尋引擎,影響了必應和必應驅動的引擎的競爭,」微軟發言人凱特琳-羅斯頓(Caitlin Roulston)上週表示。 “我們尊重那些不希望其網頁內容被我們的生成式人工智慧模式使用的網站所提供的指示。”
到目前為止,Google和OpenAI是Reddit 白名單上唯一的搜尋引擎。如果其他引擎回傳的只是過期的Reddit 內容,那麼它們就沒有遵守網站的robots.txt 文件。
Reddit 透過這些授權交易從用戶生成的內容中獲利,一方面,豐厚的費用並沒有落入Reddit 論壇社群成員的口袋。另一方面,這些授權協議與其他公司的授權協議並無太大差異。
OpenAI 已經向Dotdash Meredith、Axel Springer、Associate Press 和《大西洋月刊》等大型出版商支付了許可費。這些出版商是否會透過加薪或獎金的方式將這些利潤轉嫁給他們的作者,這一點尚未得到證實,但值得懷疑。這樣做對嗎?不,法院仍在對這項史無前例的行為進行裁決。不過,在這一點上,這是理所當然的。
而這個問題並不局限於Reddit,而是所有線上出版商,無論大小。在反對人工智慧訓練濫用的競賽中,Reddit 是少數幾家有實力和影響力與人工智慧公司叫板的公司之一。在大型媒體公司努力實現貨幣化並達成協議的同時,網路的其他部分卻在苦苦掙扎。事實上,一些子論壇擁有自己的機器人,它們會從原始來源複製和貼上整個書面內容,並將其顯示為主題中的第一條評論,這實際上是在複製內容,然後將其出售給人工智能公司。
在製定管理條例之前,人工智慧淘金熱就像1848 年的加州淘金熱一樣。人工智慧公司將繼續蜂擁而至,把人工智慧產品塞進每個人的喉嚨,以獲取利潤或收集更多數據。同時,像Reddit 和Vox 這樣的公司也會繼續把鏟子遞給他們。