AI製造網絡垃圾:舊互聯網正在消亡新網絡艱難中誕生
最近幾個月,種種跡象表明,互聯網的風向已經變了。谷歌搜索試圖取消經典的10個藍色鏈接頁面、推特被聊天機器人佔領、亞馬遜和TikTok變得垃圾化。各大在線媒體也在不斷縮減人員,而招聘“人工智能編輯”的廣告要求每週產出200至250篇文章。
電商網站Etsy上充斥著“AI生產的廢品”。聊天機器人正參與其中,造成了大量的信息誤導。LinkedIn正在利用AI來吸引疲憊的用戶,Snapchat和Instagram正希望機器人在你的朋友不在的時候與你交流。Reddit用戶正在抗議,Stack Overflow版主發起罷工。互聯網檔案館(Internet Archive) 正在與數據爬蟲作鬥爭,而“AI正在破壞維基百科”。
舊互聯網正在消亡,而新互聯網正在艱難地誕生。
互聯網一直在消亡,這一點毫不意外。多年以來,應用程序一直在奪取網站的流量,而算法則使得人們的注意力時間越來越短。但在2023年,網絡再次面臨消亡的威脅,人工智能成為新的催化劑。
人工智能超越了互聯網的規模能力
多年前,網絡曾經是個人創造內容的地方。人們製作主頁、論壇和郵件列表,並從中賺取一些小錢。然後,公司認為他們可以做得更好,創建了功能豐富的平台,向所有人開放。他們提供了一個盒子,我們用文字和圖片填充,其他人來瀏覽。這些公司都在追求規模效應,因為只要有足夠多的人聚集在一起,通常就有賺錢的機會。但人工智能改變了這一切。
人工智能係統(特別是生成式模型)憑藉更多的資金和計算能力,可以輕鬆擴大規模。它們能夠生成大量的文本、圖像,甚至音樂和視頻。它們的產出可能超過我們所依賴的新聞、信息和娛樂平台。然而,這些系統的質量通常很差,它們是以一種寄生在當前網絡上的方式構建的。
這些模型依賴於上一個網絡時代的數據進行訓練,無法完美地重建這些數據。公司從開放的網絡中抓取信息,將其提煉成機器生成的內容,成本低廉但可靠性不高。然後,這些產品與之前的平台競爭用戶的注意力。網站和用戶正在關注這些變化,試圖決定如何適應新的趨勢。
近幾個月來,Reddit、維基百科、Stack Overflow和谷歌等受歡迎的網站上的討論和實驗揭示了人工智能係統帶來的壓力。
Reddit宣布大幅提高訪問其API的費用,版主們進行抗議。Reddit高管表示,這是對人工智能公司抓取其數據的回應。Reddit創始人兼首席執行官史蒂夫·霍夫曼(Steve Huffman)稱:“Reddit的數據庫非常有價值,我們不需要將這些價值全部免費奉獻給全球最大的幾家公司。”此外,Reddit試圖在今年晚些時候進行IPO之前從該平台榨取更多收入。Reddit的舉動表明,數據抓取對當前網絡既是威脅又是機遇,並促使公司重新考慮平台的開放性。
維基百科對數據抓取非常熟悉,谷歌長期以來一直使用其信息支持“知識面板”。近年來,這家搜索巨頭開始為這些信息付費。但維基百科的版主們正在討論如何使用功能強大的新人工智能語言模型為網站撰寫文章。他們敏銳地意識到與這些系統相關的問題,這些系統可能會編造誤導性信息,但他們不得不承認它們在速度和範圍方面具有明顯優勢。在線社區教授、《你應該相信維基百科嗎?》(Should You Believe Wikipedia?)一書的作者艾米·布魯克曼(Amy Bruckman)表示:“我不認為將人工智能生成的內容作為初稿有什麼錯,但每一點都必須經過核實。”
ChatGPT生成的答案錯誤率很高
Stack Overflow提供了一個類似但更極端的例子。像Reddit一樣,Stack Overflow版主也在罷工,他們同樣擔心機器生成內容的質量。當ChatGPT去年上線時,Stack Overflow成為第一個禁止其輸出的主要平台。版主們當時寫道:“儘管ChatGPT生成的答案錯誤率很高,但它們通常看起來可能是正確的,而且答案很容易生成。”由於排序結果需要花費太多時間,版主們決定完全禁止它。
然而,Stack Overflow的管理層另有打算。此後,該公司通過增加阻止用戶發佈人工智能內容所需的證據,從根本上扭轉了這一禁令,並宣布希望利用這項技術。與Reddit類似,Stack Overflow計劃向那些自己構建人工智能工具並收集數據的公司收費,可能是為了與它們競爭。Stack Overflow與版主們的爭執在於網站的標準以及誰來執行這些標準。版主們認為人工智能的輸出不可信,但高管們認為值得冒險。
然而,與穀歌正在發生的變化相比,這些困難都顯得微不足道。谷歌搜索為現代網絡經濟提供了保障,將注意力和收入分散到大部分互聯網上。隨著Bing AI和ChatGPT作為替代搜索引擎變得越來越流行,谷歌開始採取行動,並試驗用人工智能生成的摘要取代傳統的10個藍色鏈接。如果谷歌繼續實施這一計劃,將迎來巨大的變革。
科技網站Tom’s Hardware的總編輯阿夫拉姆·皮爾奇(Avram Piltch)在一篇關於谷歌人工智能搜索測試版的文章中強調了其中的某些問題。皮爾奇稱,谷歌的新系統實質上是一個“抄襲引擎”。它的人工智能生成摘要經常逐字逐句地從網站上複製文本,但將這些內容放在源鏈接上方,導致它們缺乏流量。如果這種新的搜索模式成為常態,它可能會損害整個網絡。收入拮据的網站可能會被擠出市場,而谷歌自己也將耗盡可供重新打包的人工生成內容。
人工智能領域的變化(基於他人的工作生成廉價的內容)正在推動這種變化,如果谷歌繼續當前的人工智能搜索體驗,其影響將很難預測。這可能破壞我們目前認為有用的網絡,從產品評論到食譜博客、業餘愛好者主頁、新聞媒體和維基。網站可以通過封鎖入口和收費來保護自己,但這也將對網絡經濟進行巨大重組。最終,谷歌可能會殺死為其創造價值的生態系統,或者以不可逆轉的方式改變它,以至於自己的生存也受到威脅。
然而,如果讓人工智能掌控局面,並開始向大眾提供信息,會發生什麼?會有什麼不同嗎?
目前的證據表明,它會降低網絡的總體質量。正如皮爾奇在他的評論中所指出的那樣,儘管人工智能有重新組合文本的能力,但最終創造底層數據的是人類,無論是核實事實的記者,還是遇到電池問題的Reddit用戶,他們樂意分享解決問題的方法。相比之下,人工智能語言模型和聊天機器人生成的信息往往是不正確的。更棘手的是,當它們出錯時,很難發現這些錯誤。
舉個例子,今年早些時候,筆者研究人工智能代理時發現了一個問題。這類系統使用像ChatGPT這樣的語言模型,與網絡服務連接,代表用戶訂購雜貨或預訂航班。推特上有很多人都在稱讚這項技術的潛力,於是筆者想像了一個場景:一家防水鞋公司想要進行一些市場調研,於是便求助AutoGPT(一個建立在OpenAI語言模型之上的系統),來生成一份關於潛在競爭對手的報告。
生成的內容基本上是可預測的。它列出了五家公司,並列出了它們產品的優點和缺點。AutoGPT寫道:“(某某品牌)是一家出色的戶外裝備和鞋類品牌”、“他們的防水鞋有多種樣式”、“他們在市場上的價格具有競爭力”。你可能會認為這些內容太過陳腐,幾乎沒有用處(你說得沒錯),但是這些信息也是有微妙錯誤的。
人工智能生成內容往往隱含錯誤
為了檢查報告內容,筆者請Reddit上著名版主克里斯(Chris)進行了核對。克里斯表示,這份報告基本上是憑空捏造的。他說:“儘管內容很多,但沒有真正的價值。”它沒有提到一些重要因素,比如男女鞋的區別或所用的面料類型。它錯誤地將網絡曝光率更高的品牌列為更有價值的品牌。克里斯表示,總的來說,這份報告不專業,大部分都是猜測。“如果有人問我同樣的問題,我會給出完全不同的答案,”他說。“接受人工智能的建議,很可能會導致腳受傷。”
這與Stack Overflow版主們的抱怨相似,他們認為人工智能生成的錯誤信息是隱蔽的,因為通常不容易發現。人工智能係統給出的報告看起來很好,但沒有基於現實世界的經驗,所以需要時間和專業知識進行分析。如果機器生成的內容取代了人類的創作,我們將很難(甚至不可能)完全描繪出這種損害。是的,人類也會創造大量錯誤信息,但如果人工智能係統扼殺了目前人類專業知識蓬勃發展的平台,那麼糾正我們集體錯誤的機會就會減少。
人工智能對網絡的影響無法簡單概括。即使在上述幾個例子中,也有許多不同的機制在起作用。在某些情況下,人工智能的威脅似乎被用來為其他原因所期望的改變辯護(比如Reddit),而在其他情況下,人工智能是創造網站價值的人和運營網站的人之間鬥爭的武器(比如Stack Overflow)。在其他領域,人工智能填滿盒子的能力也產生了不同的影響,從試圖讓人工智能參與的社交網絡,到人工智能生成的垃圾與其他商品競爭的購物網站。
在每一種情況下,人工智能的擴展能力都改變了平台。許多最成功的網站都是利用規模優勢的網站,它們要么增加社交聯繫或產品選擇,要么對構成互聯網本身的大量信息進行分類。但這種規模依賴於大量的人類來創造潛在價值,而在大規模生產方面,人類無法擊敗人工智能。
機器學習領域有一篇著名的文章,名為《痛苦的教訓》(theBitter Lesson)。指出,幾十年的研究證明,改進人工智能係統的最佳方式不是試圖設計智能,而是簡單地投入更多的計算機能力和數據。這是一個痛苦的教訓,因為它表明機器規模勝過人類管理。同樣的道理也適用於網絡。
但這一定是壞事嗎?如果我們所知道的網絡在面對人工豐裕時發生了變化,結果會如何?有些人會說,這就是世界運行的方式,他們指出,網絡本身也扼殺了它之前的東西,而且往往是向好的方向發展。例如,印刷版百科全書幾乎絕跡了,但我更喜歡維基百科的廣度和可訪問性,而不是大英百科全書的分量和保證。對於與人工智能生成內容相關的所有問題,也有很多方法可以改進它,比如改進引用功能、增加人類監督等。此外,即使網絡上充斥著人工智能垃圾,也可能被證明是有益的,可以刺激資金更充足的平台發展。例如,如果谷歌在搜索中總是提供垃圾結果,你可能更傾向於為你信任的資源付費,並直接訪問它們。
事實上,人工智能目前引發的變化只是網絡歷史上長期鬥爭中的最新進展。從本質上講,這是一場關於信息的戰爭,關於誰在製造信息,你如何獲取信息,以及誰得到報酬。但是,僅僅因為這場戰鬥是熟悉的,並不意味著它不重要,也不能保證接下來的系統會比我們現在的系統更好。新的網絡正艱難地誕生,而我們現在所做出的決定將決定它的發展方式。