研究稱48%熱門新聞網站屏蔽OpenAI爬蟲
根據路透社研究所的一項調查顯示,截至2023 年底,10 個國家/地區近一半(48%) 的熱門新聞網站屏蔽了OpenAI的爬蟲,而近四分之一(24%) 屏蔽了Google的AI 爬蟲。路透社研究所分析了15 個涵蓋範圍最廣的線上新聞來源的robots.txt,其中包括《紐約時報》、BuzzFeed News、《華爾街日報》、《華盛頓郵報》、CNN 和NPR 等標題,涵蓋德國、印度、西班牙等國家、英國和美國。
由於缺乏明確的監管框架來管理生成式人工智慧對受版權保護的材料的使用,許多大型出版商自行解決問題,將人工智慧公司告上法庭,更新服務條款,阻止爬蟲或達成交易以保護優質內容,數據和收入。
研究將媒體分為三類:傳統印刷出版物、電視和廣播電台以及數位媒體。
到2023 年底,超過二分之一(57%) 的傳統印刷出版物網站(例如《紐約時報》)將屏蔽OpenAI 的爬蟲程序,而電視和廣播公司的這一比例為48%,數位媒體的比例為31%。
同樣,32% 的印刷媒體屏蔽了Google 的抓取工具,而19% 的廣播公司和17% 的數位媒體也採取了同樣的做法。
Gartner 副總裁、傑出分析師 Andrew Frank 表示:路透社的研究強調了生成式人工智慧面臨的一個根本挑戰:它依賴於真實的人生成的真實內容,而這些人將其視為對其生計的威脅。
同時,康乃爾大學最近的一項研究發現,當新的人工智慧模型根據先前模型而不是人類輸入的資料進行訓練時,它們往往會模型崩潰或退化,導致生成的輸出中錯誤和錯誤資訊增加。
「這表明大型語言模型開發人員需要找到方法來補償那些創建或報告真實內容的人,這不僅是為了社會,也是為了他們自己的商業利益。」弗蘭克說。
部署網站爬蟲的原因有很多。像Google的Googlebot 這樣的爬蟲會在這家科技巨頭的搜尋結果中索引出版商網站。同時,OpenAI 的爬蟲GPTBot 透過網路收集資料來訓練其大型語言模型,例如ChatGPT。這使得人工智慧工具能夠產生準確的同步數據——新聞出版商尤其具有獨特的優勢來提供這種能力:GoogleAI的權重比優質出版商的內容高出5 到100倍。人工智慧驅動的解決方案正在成為傳統搜尋引擎的替代品。
根據這項研究,與南半球的新聞媒體相比,北半球的新聞媒體更傾向於阻止人工智慧爬蟲。
在美國,79% 的頂級線上新聞網站封鎖了OpenAI,而在墨西哥和波蘭,只有20% 的網站這樣做了。同時,德國60% 的新聞網站封鎖了Google的爬蟲,而波蘭和西班牙則有7% 的新聞網站封鎖了Google的爬蟲類。
幾乎所有屏蔽Google AI 的網站也屏蔽了OpenAI(97%)。儘管該研究沒有對這一趨勢提供明確的解釋,但它表明OpenAI 在Google 之前發布其爬蟲程序可能對此有所貢獻。
同時,在大多數國家/地區,一些出版商在這兩套爬蟲程式發布後立即對其進行了屏蔽。OpenAI 於去年8 月初推出了人工智慧爬蟲,Google也於9 月緊隨其後。根據這項研究,一旦做出屏蔽決定,沒有任何網站會改變立場,解除對OpenAI 或Google AI 爬蟲的屏蔽。