人工智慧首次讀出赫庫蘭尼姆古卷中的文字
一名21 歲的電腦科學專業學生在一次全球競賽中獲勝,讀出了古羅馬城市赫庫蘭尼姆碳化捲軸中的第一段文字,該捲軸自公元79 年火山爆發以來一直無法被讀取,而那次火山爆發也掩埋了附近的龐貝城。這項突破可能會打開希臘羅馬古代唯一保存完好的圖書館中的數百個文本。
內布拉斯加大學林肯分校的盧克-法裡托爾(Luke Farritor)開發了一種機器學習演算法,在捲起的紙莎草紙上檢測到了幾行希臘字母,其中包括πορjυρας(porphyras),意為”紫色”。Farritor 利用表面紋理的細微差別來訓練神經網絡,並突出墨跡。
義大利那不勒斯大學的紙莎草學家、審查Farritor 研究成果的學術委員會成員Federica Nicolardi 說:「當我看到第一張圖片時,我震驚了。這簡直是一場夢。現在,我真的可以從捲軸內部看到一些東西”。
西元79 年10 月,維蘇威火山爆發,赫庫蘭尼姆被20 公尺高的火山灰掩埋,數以百計的捲軸被掩埋。早期打開紙莎草紙的嘗試失敗,產生了一堆碎片,學者們擔心其餘的紙莎草紙永遠無法展開或閱讀。
維蘇威火山挑戰賽設立了一系列獎項,從捲軸中讀出四個或更多段落將獲得70 萬美元的主獎金。10 月12 日,主辦單位宣布,法里托爾因在4 平方厘米的紙莎草紙上讀出10 個以上的字符而贏得了4 萬美元的”第一封信”獎。柏林自由大學研究生優素福-納德(Youssef Nader)獲得第二名,獎金為1 萬美元。
義大利威尼斯卡福斯卡里大學(Ca’ Foscari University of Venice)古希臘和古羅馬歷史學家西婭-薩默希爾德(Thea Sommerschield)說,最終看到捲軸中的字母和文字”非常令人激動”。這些捲軸是在十八世紀發現的,當時工人發現了一座豪華別墅的遺跡,這座別墅可能屬於凱撒大帝岳父的家族。薩默希爾德說,破解這些紙莎草紙可能”徹底改變我們對古代歷史和文學的認識”。今天已知的大多數古典文本都是抄寫員幾個世紀以來反覆抄寫的結果。相較之下,赫庫蘭尼姆圖書館收藏的作品則沒有其他來源,直接來自作者。
到目前為止,研究人員只能研究已開啟的片段。已經發現了一些拉丁文作品,但其中大部分是與伊壁鳩魯哲學流派有關的希臘文。其中有伊比鳩魯本人所寫的《論自然》的部分內容,還有一位鮮為人知的哲學家Philodemus 關於惡習、音樂、修辭和死亡等主題的作品。有人認為,這個圖書館可能曾經是他的工作藏書。但是,600 多卷紙莎草紙–大部分保存在那不勒斯國家圖書館,少數保存在英國和法國–仍然完好無損,沒有被打開過。而在別墅尚未發掘的底層,也可能發現更多的紙莎草紙。
布倫特-西爾斯(Brent Seales)是一名電腦科學家,曾幫助設立維蘇威火山挑戰賽,他和他的團隊花了數年時間,開發出利用X 射線電腦斷層掃描(CT)”虛擬揭開”薄如蟬翼的紙莎草紙層的方法,並將其視覺化為一系列平面影像。2016 年,萊剋星頓肯塔基大學的Seales 報告1 使用該技術讀取了以色列En-Gedi 的燒焦捲軸,揭示了《利未記》(猶太教《托拉》和基督教《舊約》的一部分)中寫於公元三、四世紀的部分內容。但恩蓋迪捲軸上的墨水含有金屬,因此在CT 掃描中會發出耀眼的光芒。赫庫蘭尼姆古卷上的墨水是碳基的,本質上是木炭和水,在掃描中的密度與紙莎草紙的密度相同,所以根本不會顯示出來。
西爾斯意識到,即使亮度沒有差異,CT 掃描也可能捕捉到紋理上的微小差異,從而區分出塗有墨水的紙莎草紙區域。為了證明這一點,他訓練了一個人工神經網路來讀取打開的赫庫蘭尼姆碎片的X 射線圖像中的字母。然後,在2019年,他從巴黎法蘭西學院攜帶了兩個完整的捲軸到英國牛津附近的同步輻射X射線設施鑽石光源,以目前最高的分辨率(每個三維圖像元素或體素4-8微米)對其進行掃描。
然而,閱讀完整的捲軸仍然是一項艱鉅的任務,因此該團隊向公眾公佈了所有掃描結果和代碼,並發起了維蘇威火山挑戰賽。西爾斯說:”我們一致認為,與其試圖囤積所有東西,不如儘早讀取裡面的內容。”
大約1500 個團隊很快就透過玩家聊天平台Discord 進行了討論和合作。獎品是分階段設計的,每達到一個里程碑,就會發布獲獎代碼,供大家在此基礎上繼續開發。Farritor 一直對歷史感興趣,他從小就自學拉丁語,因此很早就參與其中。
同時,Seales 的團隊也致力於虛擬解包,發布扁平碎片的影像供參賽者分析。關鍵時刻出現在6 月下旬,一位參賽者指出,在一些圖像上,肉眼偶爾能看到墨水的細微紋理,這種紋理被稱為”裂紋”。法里托立即將注意力集中在尋找更多字母的蛛絲馬跡。
八月的一個晚上,他正在參加一個聚會,突然收到一條提示,說有一個新的片段發布了,其中的裂紋特別明顯。透過手機連接,他在新圖像上運行了演算法。一小時後,他走在回家的路上,掏出手機,看到螢幕上出現了五個字母。”我當時上躥下跳,天哪,這真的行得通。”從那以後,他只花了幾天時間就完善了模型,並確定了獲獎所需的十個字母。
掃描顯示黑色的紙莎草紙碎片,白色的希臘字母清晰可見。維蘇威挑戰賽破解的第一個字是希臘文πορφύρας,意為”紫色”。
古文字學家們也很興奮。在打開的赫庫蘭尼姆捲軸中還沒有讀到”紫色”一詞。紫色染料在古羅馬非常搶手,是用海螺的腺體製成的,因此這個詞可以指紫色、長袍、買得起染料的人的等級,甚至是軟體動物。尼古拉迪說,但比單字更重要的是讀出任何東西。這項進展”使我們有可能恢復整個捲軸的文字”,包括標題和作者,這樣就可以確定作品的身份和年代。
亞尼斯-阿薩埃爾(Yannis Assael)是倫敦GoogleDeepMind公司的研究科學家,他認為維蘇威火山挑戰賽是”獨一無二且鼓舞人心的”。他指出,人工智慧(AI)正越來越多地幫助古文獻研究,但這只是更廣泛轉變的一部分。例如,去年阿薩埃爾和薩默希爾德發布了一款名為”伊薩卡”(Ithaca)的人工智慧工具,旨在幫助學者收集不明古希臘碑文的日期和來源,並提出文本建議以填補空白2。現在,該工具每週都會收到數百條詢問,類似的工作也正在應用於從韓語到古代美索不達米亞使用的阿卡德語等各種語言。
Seales 希望機器學習能打開他所謂的”隱形圖書館”。所謂”隱形圖書館”,指的是實際存在但無人能見的文本,包括中世紀書籍裝幀中使用的羊皮紙、後來的文字遮蓋了下面一層的”重寫本”(palimpsests),以及用來製作古埃及木乃伊盒和麵具的紙莎草紙(cartonnage)。
不過,現在所有的目光都集中在維蘇威火山挑戰賽。獲得大獎的截止日期是12 月31 日,Seales 將人們的情緒描述為”無法抑制的樂觀”。法里托已經在畫卷的其他部分製作了自己的模型,並看到了更多的角色出現。