因為圍牆花園和付費牆互聯網檔案館發現自己越來越難記錄互聯網
自從互聯網檔案館(Internet Archive)開始保存各種數字資料,包括軟件、遊戲、電影、圖像,當然還有網頁至今已超過26年。Wayback Machine是處理不斷增加的收集和整理互聯網快照任務的機制,自90年代中期以來,它已經取得了長足的進步。
我們可以把Wayback Machine想像成一台虛擬的時間機器。有了它,你可以回到過去,查看不同的網站在整個歷史上的固定時間段的樣子。在進行研究或事實核查時,這可能是非常有用的,而在記錄網頁設計技術多年來的演變時,也同樣有趣。
Wayback Machine在成立短短一年後就成功地歸檔了2TB字節的數據,這在當時是一個巨大的數據量。如今,你可以把所有這些數據存儲在一個30美元的U盤裡,並把它放在你的口袋裡隨身攜帶。
今天,Wayback Machine的數據庫中包含超過7000億個網頁,總容量接近100PB。不幸的是,這個非營利組織的工作並沒有變得更容易,因為付費牆和圍牆花園反抓取機制(如Facebook)正在使它越來越難以紀錄互聯網的樣子。20年後,我們還有可能看到今天的社交媒體活動的記錄嗎?
再者,如果元宇宙像一些人預測的那樣實現,互聯網檔案館將不得不相應地發展其收集工作,或者因為某種原因無法對該數字媒體中發生的事情進行編目。
並非所有人都認為該組織有權做它所做的一些事情。當互聯網檔案館在大流行病開始時推出沒有等待名單的國家緊急圖書館時,一些出版商說這相當於故意大規模侵犯版權。互聯網檔案館提前關閉了其緊急借閱圖書館,希望能避免一場昂貴的訴訟,但出版商還是提起了訴訟。7月,雙方都提出了簡易判決的動議。