Internet Archive:記錄那些被遺忘的互聯網
在Martin Luther King, Jr 的維基百科詞條下面,附註著三百多條腳註,其中包括66 本書籍引用。這是人們信賴維基百科的原因,幾乎每一則詞條的每一處描述都有跡可循,查閱者可以通過參考資料檢驗詞條文本的準確性。
不過就算是維基百科這樣的互聯網百科全書,它能記錄的也非常有限。《紐約客》一篇題為Can the Internet be archived?的文章中曾經寫道,“網絡永遠生活在當下。它虛幻、短暫、不穩定、不可靠。有時候你想要訪問的網頁卻指向了404… 有時候你想要查詢的頁面已經被更新後的內容覆蓋——這更麻煩,因為網頁不會告訴你,你看到的內容壓根兒不是你想查詢的內容。”
那麼,有沒有辦法能夠找到那些404 或者修改前的網絡內容呢?
備份互聯網
有人試圖備份整個互聯網。
1996 年,因為擔心網絡上的信息不能像印刷在書籍裡一樣被永恆地保存下來,布魯斯特·卡利(Brewster Kahle)創立了公益性質網站Internet Archive。
很多人將Internet Archive 定義為最偉大的搜索網站。Kahle 開發的搜索工具Wayback Machine 定期收錄和抓取全球網站的信息,並進行保存。Wayback Machine 的工作也有主次之分,對於不同的網站,收錄的數量和頻次也不相同。
截止到現在,Internet Archive 已經保存了3300 億網頁和頁面快照,而Internet Archive 的偉大在於,除此之外,這個龐大的檔案館還記錄了2000 萬冊圖書和文本,850 萬份音頻和視頻、 300 萬幅圖像和20 萬個軟件程序。
總而言之,Internet Archive 想做的是讓信息獲取更加簡單和準確。最近,Internet Archive 和維基百科聯手做了一件事情,讓維基百科更靠譜了。Internet Archive 已經將維基百科腳註中13 萬條書籍引用定向鏈接到Internet Archive 5 萬本(覆蓋英語、希臘語和阿拉伯語)完成過數字化掃描,且對公眾公開的書籍。查閱者可以通過點擊腳註的頁碼,查看被引用部分的兩頁上下文預覽。
查閱者可以通過點擊腳註的頁碼,查看被引用部分的兩頁上下文預覽| Internet Archive
網絡圖書館
上述《紐約客》文章中說,“腳註是人類文明史上的一個里程碑,發明和傳播它花了幾個世紀的時間,摧毀它僅僅用了幾年。比如過去,書籍和論文的腳註能讓你準確了解到額外的信息,以及信息的來源。現在,當一切搬到互聯網上,你仍然可以通過點擊腳註的鏈接獲取更多信息,只不過你不知道興許哪一天鏈接就失效了。”
2016 年10 月,維基百科和Internet Archive 宣布合作解決失效鏈接問題,Wayback Machine 主管Mark Graham 開發的InternetArchive Bot 自動掃描維基百科腳註的失效鏈接,並自動將失效鏈接連接到Wayback Machine 保存的頁面。“我們編輯了1400 萬鏈接,超過1100 萬鏈接到Internet Archive。”Graham 說到。
鏈接書籍的工作與之類似,但是更具有挑戰性。Graham 解釋說,並非所有書籍都有ISBN 編碼,也並非所有腳註都參考了正確引用格式,標註了具體的頁碼。
Internet Archive 稱自己為網絡圖書館。不少線下圖書館也會對書籍數字化之後藉閱給用戶。當你對某一本引用的書籍感興趣,就可以問Internet Archive 借閱到電子版。
Internet Archive 從2005 年開始著手書籍數字化的工作,它的“館藏”裡已經有了380 萬本。目前Internet Archive 在全球設了22 個工作點,每天有100 位員工以每天1000 本的速度加快掃描工作,即便這樣還有數百萬本書排隊等候。
數字時代,人們與書本的距離越來越遠。Kahle 稱,“我們希望從維基百科開始,通過將書籍編織進互聯網的方式,將讀者與書籍連接起來。”
互聯網檔案館
80、90 後的青春可能隨著某天天涯和豆瓣的關閉而停駐,Facebook 成立以來也不過十幾年光景。互聯網加速了信息的傳播和迭代,相應地人們遺忘得也越快。但是在 Internet Archive,念舊的人可以看到當時的熱點話題“製造機”天涯社區,以及現在看來有些“非主流”的新浪微博首頁快照。
Internet Archive 保存的天涯和新浪微博的快照| Internet Archive
正如《紐約客》評論道,幾乎可以肯定,如果哪些東西沒有被網頁時光機(Wayback Machine)收錄,它們等於從來沒有存在過。
2014 年7 月17 日,馬來西亞一架波音777 客機起飛後不到三小時在烏克蘭墜毀。烏克蘭反對派指揮官Strelkov 在俄羅斯社交媒體VKontakte 發布一條消息,“我們剛剛擊落一架飛機,一架AN-26。”這則帖子包含了飛機殘骸的視頻鏈接,看起來像是波音777,隨後被刪除。第二天,這則帖子被收錄到Wayback Machine,Internet Archive 在Facebook 發帖稱,“這就是我們存在的意義。”
正如《金融時報》評論,在一個虛假信息,極端主義內容被迅速創造和傳播,社交媒體信息不斷迭代和更新的時代裡,能夠記錄“誰說了什麼”,“何時說了什麼”而且內容不可更改的重要性被放大了。通過Internet Archive 對不同時期的歷史信息進行研究,是它更大的價值所在。比如在特朗普當選之後,Internet Archive 收集了包括特朗普就職前的6000 多段視頻幫助人們辨別和核實虛假信息。
然而,想要建立全球化的互聯網檔案館不太容易,部分原因在於各個國家在法定送存、版權、隱私等法律問題上無法統一。今年年初,英國作家協會(The Society of Authors)表示Internet Archive 做法涉嫌侵權——在英國所有的書籍掃描和借閱行為必須得到版權所有者的授權,且每一次借閱能為作者帶來8.52 便士的公共出借報酬。英國作家協會指摘Internet Archive 沒有得到作者的許可,同時沒有支付任何報酬。
不久之後,一份由全美作家聯盟(NationalWritersUnion)發布,其餘36 個組織(包括The Society of Authors)共同簽署的文件,譴責Internet Archive 和合作圖書館掃描和分發電子書的行為。雖然Internet Archive 解釋他簽署了CDL(controlled digital lending)協議——在沒有獲得版權所有者的許可下,允許圖書館數字化印刷書籍,並藉出給用戶。前提是規定借出數量和時間上限,並且基於合理使用(Fair use)制度,借出數量必須與數字化前實體書籍數目一致(一旦一本實體書被借出,它的對應電子版本則不能藉出,反之亦然。)
法律跟不上技術迭代的步伐,就如同許多敢為人先者一樣,Internet Archive 身處在資源共享和版權至上的夾縫之中。
互聯網檔案館創始人Brewster Kahle | 維基百科
“在中國互聯網的古代,人們不僅只是使用互聯網,那時候的人們參與建設互聯網… 比如說前往維基百科編纂詞條,管理內容。在中文互聯網世界裡,人們去豆瓣網增添電影、書籍、音樂專輯的條目,便於其他網友標註、收藏和評論。”網絡寫手和菜頭曾如此寫道。
這或許和Internet Archive 想要打造的互聯網世界相似,用Graham 的話說,Internet Archive 希望普及所有知識。Kahle 表示,儘管Internet Archive 紮根在舊金山,但是與今天的矽谷共同點少之又少。他希望所有技術的“遺產”最後不是掌握在少數人手中,“我喜歡很多人都能贏的感覺。”