聊天機器人正在消化互聯網,而互聯網希望拿到回報
人工智能公司正在利用無數人在互聯網上創作的內容,但沒有徵得他們的同意,也沒有給予任何報酬。如今,越來越多的科技和媒體公司開始要求支付費用,希望從聊天機器人的熱潮中分一杯羹。以下是翻譯內容:
如果你曾在博客上發表過文章、在Reddit上發布過帖子,或在開放網絡上分享過任何內容,那麼你就有可能為最新一代人工智能的誕生做出了貢獻。
谷歌的Bard、OpenAI的ChatGPT、微軟的新版必應以及其他初創公司提供的類似工具,都整合了人工智能語言模型。但如果沒有互聯網上免費獲取的海量文本,這些聰明的機器人作家將無法問世。
如今,網頁內容再次成為爭奪的焦點。這種情況自早期搜索引擎之爭以來就沒有出現過。科技巨頭試圖將這個不可替代的、富含全新價值的信息源劃分為自己的領地。
原本不知情的科技和媒體公司正在意識到,這些數據對於培養新一代基於語言的人工智能至關重要。Reddit是OpenAI寶貴的培訓資源之一,但最近前者宣布會向人工智能公司收取數據訪問的費用。OpenAI拒絕就此發表評論。
最近,推特也開始對數據訪問服務收費,這一變化影響了推特業務的許多方面,包括人工智能公司對數據的使用。代表出版商的新聞媒體聯盟本月在一篇論文中宣布,當公司利用其成員製作的作品對人工智能進行培訓時,它們應該支付許可費。
程序員問答網站Stack Overflow的首席執行官普拉尚思·錢德拉塞卡(Prashanth Chandrasekar)表示:“對我們來說,真正重要的是信息的歸屬。”對於大型人工智能公司訪問網站上的用戶創作內容,這家公司計劃開始收取費用,“Stack Overflow社區在過去15年中花了那麼多精力回答問題,我們真的想確保努力得到回報。”
以前曾出現許多人工智能服務,如OpenAI的Dall-E 2,它們可以通過學習來生成圖像,但卻被指控大規模竊取知識產權。創建這些系統的公司目前正捲入針對這些指控的訴訟。而人工智能生成的文本之爭可能會更大,不僅涉及到補償和信用問題,還涉及到隱私問題。
但華盛頓大學計算語言學家艾米麗·本德爾(Emily M. Bender)認為,根據現行法律,人工智能機構不必對其行為負責。
這場爭端的起因在於人工智能聊天機器人的開發方式。這些機器人的核心算法被稱為“大型語言模型算法”,需要通過吸納和處理大量現有的語言文本數據,以模仿人類說話的內容和方式。這類數據與我們在互聯網上所習慣的服務不同,比如Facebook母公司Meta Platforms等用於定向廣告的行為和個人信息。
這些數據是由人類用戶使用各種服務所創造的,比如Reddit用戶發布的數億條帖子。只有在網絡上,你才能找到足夠大的人工生成詞庫。如果沒有它,今天所有基於聊天方式的人工智能和相關技術都不會成功。
非營利組織艾倫人工智能研究所的研究科學家傑西·道奇(Jesse Dodge)在2021年發表的一篇論文中發現,維基百科和無數來自大大小小媒體機構、受版權保護的新聞文章,都存在於最常用的網絡爬蟲數據庫中。谷歌和Facebook都使用這個數據集來訓練大型語言模型,OpenAI也使用了類似的數據庫。
OpenAI不再公開其數據來源,但據該公司2020年發表的一篇論文,其大型語言模型使用從Reddit抓取的帖子來過濾和改進用於訓練其人工智能的數據。
Reddit的發言人蒂姆·拉斯施密特(Tim Rathschmidt)表示,目前還不確定向訪問其數據的公司收取費用會帶來多少收入,但相信他們所擁有的數據可以幫助改進當今最先進的大型語言模型。
報導稱,出版業高管們一直在調查:他們的內容在多大程度上被用來培訓ChatGPT和其他人工智能工具?他們認為應該如何獲得補償?以及他們可以用哪些法律來捍衛自己的權利?不過,該組織的總法律顧問丹妮爾·科菲(Danielle Coffey)表示,到目前為止,還沒有與任何大型人工智能聊天引擎的所有者(如穀歌、OpenAI、微軟等)達成任何協議,讓他們為抓取自新聞媒體聯盟成員的部分訓練數據付費。
推特沒有回復置評請求。微軟拒絕置評。谷歌的一位發言人表示:“長期以來,我們一直在幫助創作者和出版商將其內容貨幣化,並加強與受眾的關係。按照我們的人工智能原則,我們將繼續以負責任的、合乎道德的方式進行創新。”該發言人還說,“現在仍處於早期階段”,對於如何構建有利於開放網絡的人工智能,谷歌正在徵求有關意見。
法律和道德泥潭
在某些情況下,複製開放網絡上可用的數據(也被稱為抓取)是合法的,儘管公司仍在就如何以及在何時被允許這麼做的細節上爭論不休。
大多數公司和組織願意將他們的數據放在網上,是因為他們希望這些數據被搜索引擎發現並編制索引,這樣便於人們找到這些內容。然而,複製這些數據來訓練人工智能,以取代尋找原始來源的需要,這是完全不同的。
計算語言學家本德爾表示,那些從網絡上收集信息來培訓人工智能的科技公司的運營原則是:“我們可以接受它,因此它是我們的”。將文本(包括書籍、雜誌文章、個人博客上的隨筆、專利、科學論文以及維基百科內容)轉化為聊天機器人的答案會去除材料的來源鏈接。這也會讓用戶更難核實機器人告訴他們的內容。對於經常說謊的系統來說,這是一個大問題。
這些大規模信息抓取還會竊取我們的個人信息。Common Crawl是一個非營利性組織,十多年來一直在抓取開放網絡上的大量內容,並將其數據庫免費提供給研究人員。Common Crawl的數據庫也被用作希望培訓人工智能的公司的起點,包括谷歌、Meta、OpenAI和其他公司。
塞巴斯蒂安·內格爾(Sebastian Nagel)是Common Crawl的數據科學家和工程師,他表示,你幾年前寫的一篇博客文章,雖然後來被刪除,但可能仍然存在於OpenAI使用的訓練數據中,該公司使用多年前的網絡內容來訓練其人工智能。
本德爾表示,與穀歌和微軟擁有的搜索索引不同,從訓練有素的人工智能中刪除個人信息需要對整個模型進行重新培訓。道奇也稱,由於重新訓練一個大型語言模型的成本可能非常高,即使用戶能夠證明個人數據被用來訓練人工智能,公司也不太可能這樣做。由於所需的巨大計算能力,這類模型的訓練成本高達數千萬美元。
但道奇補充說,在大多數情況下,也很難讓接受過包括個人信息數據集訓練的人工智能反芻這些信息。OpenAI表示,它已經調整了基於聊天的系統,以拒絕提供個人信息的請求。歐盟和美國政府正在考慮監管這類人工智能的新法律法規。
問責制和利潤分享
有些人工智能的支持者認為,人工智能應該獲得他們的工程師可以獲得的所有數據,因為這是人類學習的方式。從邏輯上講,為什麼機器不應該這樣做呢?
本德爾表示,拋開人工智能目前和人類還不一樣這一點,上述觀點存在一個問題,即根據現行法律,人工智能不能為自己的行為負責。抄襲他人作品的人,或試圖將錯誤信息重新包裝為真相的人,可能會面臨嚴重後果,但機器和它的創造者則不承擔同樣的責任。
當然,情況可能並非總是如此。就像版權所有者Getty起訴使用他們的知識產權作為訓練數據的圖像生成人工智能公司一樣,如果企業和其他組織未經授權使用他們的內容,他們很可能會最終將基於聊天的人工智能製造商告上法庭,除非他們同意獲得授權。
無數人寫的那些個人隨筆,以及在默默無聞的論壇和已經消失的社交網絡上發布的帖子,還有其他各種各樣的東西,真的能讓現今的聊天機器人變得寫作能力一樣好嗎?這些內容的創造者能從中獲得的唯一好處,也許只是他們在使用語言方面為培養聊天機器人做出了一些貢獻。(小小)