業內:ChatGPT們毀了網絡共享根基,內容所有者不願再分享
隨著人工智能技術的迅猛發展,曾經用於搜索引擎索引的網絡爬蟲現在被用於收集訓練數據來開發人工智能模型。內容創作者意識到,他們的勞動成果被大科技公司免費使用來開發新的人工智能工具,爬蟲協議已經無法解決這個問題。這可能會影響內容所有者在線分享內容的動力,從而從根本上改變互聯網。
以下為翻譯內容:
20世紀90年代末,出現了一種名為爬蟲協議(robots.txt)的簡單代碼,允許網站所有者告知搜索引擎的機器人爬蟲哪些頁面可以抓取,哪些頁面不能抓取。如今,爬蟲協議已成為業界普遍接受的非官方網絡規則之一。
機器人爬蟲的主要目的是索引信息,改善搜索引擎的搜索結果。谷歌、必應和其他搜索引擎都有爬蟲程序,它們生成網絡內容的索引信息,並提供給潛在的數十億用戶。這也是互聯網蓬勃發展的基礎,創作者們在網絡上分享豐富信息,因為他們知道用戶會訪問他們的網站並瀏覽廣告、訂閱服務或購買商品。
然而,生成式人工智能和大語言模型正在從根本上迅速改變網絡爬蟲的任務。這些工具並沒有為內容創作者提供支持,反而成為他們的敵人。
機器人餵飽了大科技公司
現在,網絡爬蟲收集在線信息,並生成大規模的數據集,這些數據集被富有的科技公司免費用於開發人工智能模型。比如,CCBot為最大的人工智能數據集之一CommonCrawl提供數據;GPTbot則是向人工智能明星創企OpenAI提供數據。谷歌將自家的大語言模型的訓練數據稱為“無限集合”,但沒有提及大部分數據來自CommonCrawl的精簡版C4。
這些公司開發的人工智能模型使用這些免費信息來學習如何回答用戶的問題,這與為網站建立索引信息、讓用戶訪問原始內容的既定模式相去甚遠。
如果沒有潛在的消費者,內容創作者就沒有動力讓網絡爬蟲繼續收集免費數據。GPTbot已被亞馬遜、愛彼迎、Quora和其他上千家網站屏蔽。對CommonCrawl數據集的CCBot的屏蔽也越來越多。
“粗糙的工具”
阻止這些網絡爬蟲的方式並沒有太大變化。網站所有者只能部署爬蟲協議並屏蔽特定爬蟲,但效果並不理想。
“這是件有點粗糙的工具,”Wordpress前高管、科技投資者、數字營銷公司Yoast創始人約斯特·德·瓦爾克(Joost de Valk)說。“它沒有法律依據,基本上是由谷歌維護的,儘管他們聲稱是與其他搜索引擎共同維護的。”
考慮到各大企業對高質量人工智能數據的巨大需求,爬蟲協議也容易被操縱。例如,像OpenAI這樣的公司只需更改其網絡爬蟲的名稱,就可以繞過人們使用爬蟲協議設置的禁止規則。
此外,由於爬蟲協議是自願遵守的,網絡爬蟲也可以簡單地忽略指令並繼續收集信息。像Brave等較新的搜索引擎的網絡爬蟲就不會受到規則的影響。
“網上的一切信息都被模型吸進了真空,”研究人類生成數據與人工智能之間關係的計算機科學教授尼克·文森特(Nick Vincent)說。“這背後發生了很多事情。在接下來的時間裡,我們希望能以不同的方式評估這些模型。
創作者的回應
德·瓦爾克警告稱,內容所有者和創作者可能已經太遲鈍,無法理解允許這些網絡爬蟲免費獲取他們的數據、不加區分地使用這些數據來開發人工智能模型的風險。
“現在,什麼都不做意味著,’我認可我的內容出現在世界上所有的人工智能和大語言模型中,’”德·瓦爾克說。“這是完全錯誤的。需要創建更好的爬蟲協議,但搜索引擎和大型人工智能團隊自己很難會去做這件事。”
一些大公司和網站最近做出了回應,其中一些是第一次部署爬蟲協議。
檢測人工智能生成內容的公司Originality.ai表示,截至8月22日,在1000個最受用戶歡迎的網站中有70個使用爬蟲協議屏蔽GPTBot。
Originality.ai還發現,在1000個最受歡迎的網站中,有62個屏蔽了CommonCrawl的網絡爬蟲CCBot。隨著人們對人工智能數據收集的意識日益增強,今年有越來越多的網站開始屏蔽CommonCrawl。
然而,網站不能強制執行爬蟲協議。任何爬蟲都可以忽略該文件,繼續收集網頁上的數據,而網頁所有者可能根本不知情。即使部署爬蟲協議具有法律依據,其初衷與利用網絡信息開發人工智能模型關係不大。
紐約大學技術法律與政策診所主任傑森·舒爾茨(JasonSchultz)表示,”Robots.txt不太可能被視為禁止使用網站數據的法律。”這主要是為了表明人們不希望自己的網站被搜索引擎編入索引,而不是表示人們不希望自己的內容被用於訓練機器學習和人工智能。
“這是一個雷區”
事實上,這種情況已經持續了多年。早在2018年,OpenAI就公佈了首個GPT模型,並通過BookCorpus數據集進行訓練。CommonCrawl始於2008年,並於2011年通過亞馬遜雲服務公開了數據集。
儘管如今屏蔽GPTBot的網站越來越多,但對於那些擔心自己的數據被用於訓練人工智能模型的企業來說,CommonCrawl的威脅更大。可以說,CommonCrawl之於人工智能,就像谷歌之於互聯網搜索。
非營利組織知識共享(Creative Commons)首席執行官凱瑟琳·斯蒂勒(Catherine Stihler)表示,
“這是一個雷區。我們幾年前才更新了戰略,現在我們處於一個不同的世界。”
知識共享始於2001年,是創作者和內容所有者用知識共享許可協議來替代嚴格版權,在網上使用並分享作品許可的一種方式。在共享許可協議的基礎上,創作者和所有者保留他們的權利,並允許其他人訪問內容並創作衍生作品。維基百科、Flickr、StackOverflow等許多知名網站都是通過知識共享許可協議運作的。
知識共享組織在最新的五年戰略中表示,在訓練人工智能技術方面,開放內容的使用存在問題。知識共享組織希望使在線作品共享更加公平。
1600億網頁
通過CCBot爬取公開信息的CommonCrawl擁有最大的數據存儲庫。自2011年以來,它已從1600億個網頁中抓取和保存信息,並持續增加。一般來說,CommonCrawl每月抓取並保存大約30億個網頁的信息。
Common Crawl稱,這項事業是一個“開放數據”項目,旨在讓任何人“打開自己的好奇心,分析世界,追求卓越的想法”。
然而,現在的情況完全不同。大量Common Crawl收集的數據被大科技公司用於開發專有模型。即使一家大型科技公司目前沒有從人工智能產品中獲利,未來也有可能這樣做。
一些大型科技公司已停止披露訓練數據來源。然而,許多強大的人工智能模型都是使用CommonCrawl開發的。它幫助谷歌開發了Bard,幫助Meta訓練Llama,幫助OpenAI創建ChatGPT。
Common Crawl還向ThePile提供數據,後者還擁有更多從其他爬蟲抓取的數據集。ThePile已廣泛用於人工智能項目,包括Llama和微軟與英偉達共同開發的MT-NLG。
從今年6月份開始,ThePile下載量最大的數據之一是受版權保護的漫畫書,包括阿奇漫畫、蝙蝠俠、X戰警、星球大戰和超人系列的作品。這些作品都是DC漫畫和漫威創作的,現在仍受版權保護。最近有報導稱,ThePile中還存儲了大量受版權保護的書籍。
紐約大學的舒爾茨表示,爬蟲的目的和使用方式完全不同。很難監管或要求它們以特定方式使用數據。
對於The Pile來說,雖然它承認數據中包含受版權保護的材料,但在創立數據集的技術文章中聲稱,“處理和分發他人擁有的數據也可能違反版權法”的說法幾乎沒有人會認同。
此外,The Pile還辯稱,儘管數據集中存儲了相對未經改變的作品,但根據合理使用原則,對這些材料的使用應該是變革性的。ThePile還承認,在訓練大語言模型時,需要使用完整的版權內容以產生最佳效果。
網絡爬蟲和人工智能項目中所謂的合理使用觀點已經受到了質疑。作家、視覺藝術家甚至源代碼開發人員起訴OpenAI、微軟和Meta等公司,因為他們的原創作品在未經許可的情況下被用於訓練模型,而他們並沒有從中受益。
微軟前高管、風投公司安德森·霍洛維茨(Andreessen Horowitz)合夥人史蒂文·辛諾夫斯基(Steven Sinofsky)最近在社交媒體上寫道,即便將東西放到互聯網上,也不能不經同意就免費、無限制地將某人的勞動成果用於商業用途。
沒有解決辦法
“我們現在正在努力解決所有這些問題,”知識共享組織首席執行官斯蒂勒表示,有很多問題需要解決:補償、授權、信任。在人工智能時代,我們還沒有答案。
德·瓦爾克表示,由於知識共享許可協議可以促進版權的流通性、允許自己擁有的作品在互聯網上使用,可以作為開發人工智能模型的一種潛在許可模式。
斯蒂勒對此並不確定。她說,涉及到人工智能時,也許並沒有單一的解決方案。即使是更靈活的通用協議,也可能行不通。你如何向整個互聯網授權?
斯蒂勒說:“與我交談過的每一位律師都說,許可並不能解決問題。”
她經常與作者、人工智能行業高管等利益相關者討論這個問題。斯蒂勒今年早些時候會見了OpenAI的代表,並表示公司正在討論如何獎勵創作者。
但她補充說,目前還不清楚人工智能時代的公共空間將會是什麼樣子。
鑑於網絡爬蟲已經為大型科技公司收集了大量數據,加上內容創作者根本無法掌控,互聯網可能會發生巨大變化。
如果發布信息意味著將數據免費提供給與自己競爭的人工智能模型,那麼這種活動可能會停止。
已經有跡象表明,訪問問答網站Stack Overflow來回答問題的程序員越來越少,因為他們之前的付出被用來訓練人工智能模型,現在這些模型可以自動回答許多問題。
斯蒂勒表示,所有在線創作內容的未來可能很快就會像現在的流媒體一樣,內容被鎖在訂閱服務中,成本越來越高。
“如果我們不小心,最終就會導致公共空間關閉,”斯蒂勒說。“將會有更多有圍牆的花園、更多人們無法訪問的東西。這不是未來知識和創造力的成功模式。”