為訓大模式不擇手段的AI公司打破了這個古老的網路協議
大模型的橫空出世,打破了30 年來網路的運作規則。代碼版「網路小憲法」robots.txt 開始失效了。 robots.txt 是一個文字文件,每個網站都用它來說明自己是否願意被爬蟲抓取。 30 年來,一直是它,讓網路不至於在混亂中運作。
不過這個規則能長久運行其實純靠一個人性邏輯——你讓搜尋引擎抓取你的網站,同時你會獲得搜尋引擎的流量回報。這也是幾位網路先驅者達成的握手協議,為了造福網路上的所有人。
這種既沒有寫入法律,也沒有權威約束,稍顯天真的規則在運行了30 年後,終於出現了問題——越來越多的AI 公司用爬蟲抓取你的網站數據,提取數據集,訓練大模型和相關產品,但他們並不像搜尋引擎那樣回饋以流量,甚至根本不承認有你存在,你的數據就像肉包子打狗一樣有去無回。
許多數據擁有者非常憤怒,新聞出版商等數據擁有者不斷發聲,封鎖AI 爬蟲,反抗自己的數位資產被無償使用。不過如Google和OpenAI 這樣的AI 推動者,也試圖找出更好的規則,畢竟只有各方獲益才能持續發展。
01
robots.txt,
一個簡單有效的協議
robots.txt,通常位於「yourwebsite.com/robots.txt」。
任何一個經營網站的人,無論他的網站是大是小、是烹飪部落格還是跨國公司,都可以透過這個文件來告訴誰可以進入網站,而誰不可以。
「哪些搜尋引擎可以索引你的網站?哪些文件項目可以提取並保存你的網頁版本?競爭對手能否保存你的網頁?…」這些都由你決定,並透過這個文件作出聲明,讓整個互聯網看到。
不過現在,AI 已經打破了這個平衡:網路上的公司正在利用你的網站數據,提取大量訓練數據集,建立大模型和相關產品,這裡面可能根本不承認有你存在。
在網路發展的早期,機器人有許多名字:蜘蛛、爬蟲、蠕蟲、網蟻、網路爬蟲。大多數時候,這些名字都是出於好意。通常抓取資料是開發人員為了給一個新網站建立目錄,以確保自己的網站正常運行,或者建立一個研究資料庫——這是1993 年左右的事情了,當時搜尋引擎還沒有普及,電腦硬碟裡還裝不下大部分網路內容。
robots.text 的真正作用|圖片來源:KeyCDN
那時唯一的問題是流量:對於網站瀏覽者或擁有者來說,上網又慢又貴。如果你像大多數人一樣,在自己的電腦上管理網站,或用家庭互聯網,但凡有幾個機器人過度熱衷於下載網頁,就會導致網站崩潰,流量賬單激增。
1994 年的幾個月裡,一位名叫馬特恩·科斯特(Martijn Koster)的軟體工程師,與其他一群網站管理員一起,提出了一個名為「機器人修復協議」的解決方案。方案非常簡單:請網站開發人員在其網域中新增一個純文字文件,指定哪些機器人不得瀏覽其網站,或列出對所有機器人禁止造訪的網頁。
在這個時期,你甚至可以維護一個包含每個機器人的清單——科斯特這些人就是這麼做的。對機器人製造者來說就更簡單了:一切都按照文字檔案的規定來。
從一開始科斯特就明確表示,他並不討厭機器人,也不打算消滅它們。 1994 年初,有一個名為WWW-Talk,包括蒂姆·伯納斯·李(Tim Berners-Lee)和馬克·安德森(Marc Andreessen)等早期互聯網先驅的郵件列表,科斯特給這個列表發送的第一封電子郵件中說:“網路中有少數會造成運行問題和令人不快的情況,機器人是其中之一。但與此同時,它們確實提供了有用的信息。”
科斯特說,不要爭論機器人是好是壞——因為這並不重要,它們就在這裡,不會消失,他只是想設計一種系統,「將問題最小化,將利益最大化」。
到那年夏天,他的建議已經成為一項標準——雖然不是官方標準,但已被普遍接受。那年6 月,科斯特再次向WWW-Talk 小組更新提案,他寫道,「這是一種透過在伺服器上提供一個簡單的文字文件,引導機器人遠離網路伺服器URL 空間中某些區域的方法。如果你有大型文件、帶有大量URL 子目錄的CGI 腳本、臨時信息,或者你根本不想為機器人提供服務,那麼這種方法就特別方便。”
他建立了一個特定主題的郵件列表,其成員就這些文本文件的一些基本語法和結構達成一致,把文件名從RobotsNotWanted.txt 改為簡單的robots.txt,幾乎所有成員都支持它。在接下來30 年的大部分時間裡,這種方式都非常有效。
接著,硬碟不再適合互聯網,機器人的功能也隨之變得更強大更細分。 Google使用機器人來提取和索引其整個網路的搜尋引擎,該引擎成為網路的接口,每年已為該公司帶來了數十億美元的收入。必應的爬蟲也如此,微軟將其資料庫授權給其他搜尋引擎和公司。
網路檔案館(非營利組織,定期收錄並永久保存全球網站上可以抓取的資訊)使用爬蟲來儲存網頁,以供子孫後代使用。亞馬遜的爬蟲在網路上尋找產品訊息,根據最近的一個反壟斷訴訟,該公司利用這些資訊來處罰那些在亞馬遜網站外提供更低價交易的賣家。
02
搜尋爬蟲對網站來說
“有得有失”,AI 呢?
但現在,像OpenAI 這樣的人工智慧公司提取網路數據,是為了訓練大語言模型,這些模型可能會再次從根本上改變我們存取和共享資訊的方式。
現代互聯網透過下載、儲存、組織和查詢的能力,為任何一家公司或任何一位開發人員都提供了幾乎世界上所有累積的知識。在過去的一年左右的時間裡,ChatGPT等人工智慧產品的崛起及其背後的大型語言模型,讓高品質的訓練資料成為網路上最有價值的商品。
這使得各大網路必須重新考慮其伺服器上資料的價值,並重新思考誰可以存取哪些資料。過度放任會讓你的網站失去所有價值;過度限制則會讓你的網站成為隱形網站。你正在面對新的公司、新的合作夥伴和新的利害關係,必須不斷做出選擇。
網路機器人有幾種類型。你可以做一個人畜無害的機器人,讓你所有的網頁連結到其他有效的網頁上;你也可以讓一個糙漢的機器人,在網路上到處蒐集可以找到的每個電子郵件地址和電話號碼。但最常見的也是目前最具爭議的,是最簡單的網路爬蟲,它的工作就是盡可能地尋找和下載網路上的內容。
網路爬蟲的運作一般都很簡單。它們從一個網站開始,例如cnn.com、wikipedia.org 或health.gov。爬蟲下載第一頁並將其存放在某個位置,然後自動點擊該頁面上的每個鏈接,下載這些鏈接,點擊上面的所有鏈接,再點擊、下載…。只要有足夠的時間和足夠的運算資源,爬蟲最終就能找到並下載所需的上億個網頁。
2019 年,Google約有超過5 億個網站擁有robots.txt 頁面,來規定是否允許這些爬蟲存取以及允許存取哪些內容。這些頁面的結構通常大致相同:命名一個「使用者代理」(User-agent),即爬蟲向伺服器表示身分時所使用的名稱。
Google的代理是Googlebot;亞馬遜的代理是Amazonbot;必應的代理是Bingbot;OpenAI 的代理是GPTBot。 Pinterest、LinkedIn、Twitter 以及許多其他網站和服務都有自己的機器人,但並非所有機器人都會在每個頁面上被提及。
Google對Googlebot 的解釋| 圖片來源:Google
維基百科和Facebook 這兩個平台,被機器人接手得最為徹底。在robots.txt 頁面下面,推出了不允許特定代理商存取的網站部分或頁面,以及允許存取的特定例外情況。如果這一行只寫著“禁止:/”,則完全不歡迎爬蟲。
現在對大多數人來說,「伺服器過載」已經不是什麼需要考慮的問題了。 Google搜尋發起者之一約翰·穆勒(John Mueller)說:“現在,這通常與網站資源關係不大,更多與個人喜好有關,也就是你想要爬取和索引什麼就有什麼。”
大多數網站所有者需要回答的最大問題是,是否允許被Google機器人抓取。這個問題的取捨相當簡單:如果Google可以抓取你的頁面,它就可以將其編入索引並顯示在搜尋結果中。任何您希望Google 抓取的頁面,Googlebot 都需要看到。 (當然,Google 在哪裡展示的你網站,在何處折疊頁面,這是另一個問題。)前面的問題就在於,你是否願意讓Google 佔用你的頻寬並下載你網站,以換取被搜尋帶來的可見性。
對於大多數網站來說,這是一個很容易做的決定。 Medium 創辦人 Tony Stubblebine說:「Google是我們最重要的爬蟲。Google下載Medium 的所有網頁,作為交換,我們獲得了大量的流量,這是雙贏。每個人都這麼認為,這就是谷歌與整個互聯網達成的協議,在向其他網站傳輸流量的同時,他們還在搜索結果中出售廣告。”
從各方面來看,Google都是robots.txt 的好公民。 Google的穆勒說,「幾乎所有知名的搜尋引擎都遵守了這項規定。」他們很高興能夠抓取網頁,也沒有因此惹惱別人,只會讓大家的生活變得更輕鬆。
03
數據被用來訓練AI,
是肉包子打狗?
在過去一年左右的時間裡,人工智慧的興起顛覆了這種方式。對於許多出版商和平台來說,他們的資料被抓取訓練,感覺不像是交易,更像是被偷竊。
斯圖布爾賓說:「我們很快就發現,人工智慧公司不僅沒有進行價值交換,我們也沒有得到任何回報,完全是零。」去年秋天,當斯塔伯賓宣布將封鎖AI 爬蟲時,他寫道:「AI 公司從作家那裡攫取了價值,以便向網路讀者發送垃圾郵件」。
過去一年,媒體產業的大多數人都達成史塔布賓的觀點。去年秋天,BBC 國家總監羅德里·塔爾凡·戴維斯(Rhodri Talfan Davies) 寫道:「我們認為,目前這種未經允許就『搜刮』BBC 數據以訓練大模型的做法不符合公眾利益,」他宣布BBC 也將封鎖OpenAI 的爬蟲。
《紐約時報》也封鎖了GPTBot,幾個月後對OpenAI 提起訴訟,指控OpenAI 的模型是透過使用《紐約時報》數百萬篇受版權保護的新聞文章、深度調查、觀點文章、評論、操作指南等建立起來的。路透社新聞應用程式編輯 Ben Welsh的一項研究發現,在1156 家公開出版商中,有606 家在其robots.txt 檔案中封鎖了GPTBot。
不僅僅是出版商,亞馬遜、Facebook、Pinterest、WikiHow、WebMD 和許多其他平台都明確禁止GPTBot 訪問其部分或全部網站。在這些robots.txt 頁面中,OpenAI 的GPTBot 是唯一一個被明確完全禁止的爬蟲,但也有很多其他人工智慧專用機器人開始爬取網絡,例如Anthropic 的anthropic-ai 和Google的新版Google-Extended。
根據Originality.AI 去年秋季進行的一項研究,網路上排名前1000 位的網站有306 個封鎖了GPTBot,但只有85 個封鎖了Google-Extend,28 個封鎖了anthropic-ai。
也有一些爬蟲同時用於網路搜尋和AI 訓練。由Common Crawl 組織營運的CCBot 作為搜尋引擎抓取網絡,但其資料也被OpenAI、Google等公司用於訓練模型。微軟的Bingbot 既是搜尋爬蟲,也是AI 爬蟲。而這些只是表明自己身份的爬蟲——還有許多爬蟲試圖「陰暗地」運行,因此很難在無數的網路流量中封鎖它們,甚至找不到它們。
在很大程度上,GPTBot 之所以成為robots.txt 中最主要的被封鎖對象,是OpenAI 自己允許的。 OpenAI 發布推廣了一個關於如何封鎖GPTBot 的頁面,也建立了自己的爬蟲,以便在每次接近各個網站時候,大聲嚷嚷是誰來了。
當然,OpenAI 是在製作出如此強大的底層模型之後才做這件事的,這時候它都已經成為了技術生態系統的重要組成部分。
OpenAI 的部分安全性聲明| 圖片來源:OpenAI
但OpenAI 的首席策略長傑森·權(Jason Kwon)說,這正是問題的關鍵所在,他說,「我們是生態系統中的一個參與者。如果你想以開放的方式參與這個生態系統,那麼這是每個人都感興趣的。」他說,如果沒有交易,網絡就會開始收縮、關閉——這對OpenAI 和每個人來說都是不利的,「我們做這一切都是為了讓網絡保持開放」。
在預設情況下,《機器人修復協議》一直是被允許的。因為就像科斯特30 年前所做的那樣,它相信大多數機器人都是好的,都是由好人製造出來的。總的來說,這個思想也是正確的。 「我認為網路從根本上是一種社會生物,」OpenAI 的傑森·權說,「這種握手言和方式已經持續了幾十年,而且很有效。」他說,OpenAI 在遵守這一協議的功能包括:保持ChatGPT 對大多數用戶免費(從而實現價值反哺),並尊重機器人的規則。
04
阻止AI 爬蟲,
是對抗未來嗎?
但是,robots.txt 並不是一份法律文件,在它誕生30 年後的今天,仍然依賴所有相關方的善意。任何爬蟲都可以無視robots.txt,用不用擔心受到影響。 (網頁抓取問題也有法律先例,但很複雜,且主要是在允許抓取的情況下,而不是禁止情況)。
例如,網路檔案館在2017 年就宣布不再遵守robots.txt 的規則。網路檔案館Wayback Machine 主任馬克·格雷厄姆(Mark Graham)當時寫道:“隨著時間的推移,我們發現,為了搜尋引擎而建造的robots.txt 檔案並不一定符合我們的目的。”
隨著人工智慧公司的不斷增加,他們的爬蟲也越來越肆無忌憚,任何想「事不關己高高掛起」或坐等人工智慧佔領世界的人,都將面臨一場無止盡的「打地鼠”遊戲。
人們需要盡力阻止每個爬蟲(如果可能的話)的同時,還要考慮一個人後果——如果真的像Google等公司預測的那樣,AI 是搜尋的未來,那麼阻止AI 爬蟲可能是短期的勝利,長遠的災難。
圖片來源:視覺中國
阻止和不阻止AI 爬蟲的兩方都有人認為,需要更好、更強、更嚴格的工具來管理爬蟲。因為事關的利益太大,而且有太多不受監管的例子出現,畢竟不能指望每個人都自覺遵守規則。 2019 年,一篇關於網路爬蟲合法性的論文中寫道:“雖然許多人在使用網路爬蟲時有一些自我管理規則,但整體規則過於薄弱,且追責困難。”
一些出版商希望有新的規則,可以對抓取的內容和用途進行更準確的控制,而不是像robots.txt 一樣一刀切,只有「是」或「否」。幾年前,Google曾努力將機器人排除協議作為正式的官方標準,Google也曾以robots.txt 為舊標準、太多網站不重視它,試圖不再強調robots.txt。
Google信任副總裁 Danielle Romain)2023 年寫道:「現有的網路發布者控制規則是在新的AI 和研究案例之前開發的。現在是時候為網路和AI 社區,重新探索機器讀取方式,以供網絡出版商選擇。”
即使在訓練大模型上,AI 公司面臨著許多監管和法律問題,但大模型仍在快速進步,似乎每天都有新公司成立。現在不論大小的網站都面臨著一個抉擇:是屈從於人工智慧革命,還是堅守選擇陣地進行對抗。對於那些屈服的網站來說,他們最有力的說辭,便是沿用三十年的robots.txt,這個由一些最早最樂觀的互聯網忠實信徒們達成的協議。他們相信,網路是好的,其中都是希望網路變好的人。
在那個世界,用文本文件解釋你的願望就足夠了。現在,隨著AI 重塑網路的文化和經濟,一個不起眼的純文字檔案開始有點過時了。