技術讓古籍數字化回歸:AI識別20萬頁古籍準確率達97.5%
一批珍藏於加州大學伯克利分校的中文古籍善本,以數字化方式回歸故土,落地漢典重光古籍平台。借助阿里達摩院的技術,首批20萬頁古籍已完成數字化,並沉澱為覆蓋3萬多字的古籍字典,公眾可通過漢典重光平台翻閱、檢索古籍。據悉,達摩院AI對20萬頁古籍的識別準確率達到97.5%。
“漢典重光”項目由阿里巴巴公益基金會、四川大學、美國加州大學伯克利分校、中國國家圖書館、浙江圖書館合作開展,旨在尋覓流散海外的中國古籍並將其數字化、公共化,讓普通人也能親近古籍,通過古籍與先賢對話,與優秀傳統文化對話。
古籍數字化嘗試由來已久,但難度大、成本高。古籍文字字類多、字體多樣,外加流傳過程中出現的各類損壞,使得識別難度極高。由於缺乏充足的訓練數據,常規OCR識別方法高度依賴人工,幾乎需要專業人員逐字標註,導致古籍數字化無法形成規模效應,總體進程緩慢。
2019年,阿里巴巴和四川大學提出“數字化回歸”設想,四川大學歷史文化學院王果副院長與該院教授、中央文史研究館館員陳力牽線搭橋,溝通北美、歐洲、日韓等地藏書機構,獲得加州大學伯克利分校支持,達成共識,將伯克利東亞圖書館的中文古籍善本逐步數字化。
據了解,常規的古籍數字化完整流程分為幾大環節:採集側(紙質書變為電子掃描版)-數字化生產側(電子掃描版變為文字版)-應用側(文字版變為古籍研學系統,涵蓋檢索、字典、知識圖譜等功能)。
而達摩院所做的工作,主要集中於數字化生產側、應用側兩個環節。在數字化生產側,達摩院自研了一套全新的AI古籍識別系統,可以規模化、系統化對電子掃描版古籍進行識別。
達摩院團隊通過調研發現,既有技術存在較大瓶頸,AI的古籍識別能力未能達到業界認可的標準,且始終高度依賴人工標註、人工校驗。人工成本已成阻礙古籍數字化的重要原因,今天很難找到眾多識得古籍文字的專家來開展浩繁的人工錄入和檢校工程。因此,中文古籍數字化的技術進展一直比較緩慢。
在此之前,達摩院沉澱了完整的OCR技術能力,主要用於解決現代場景中的文字識別需求,比如文檔、卡證、表單等識別。而古籍識別與現代場景的文字識別存在巨大差異,在現代場景下識別準確率超過99%的算法,應用到古籍識別上識別率不足40%。
達摩院視覺實驗室負責人徐盈輝介紹,基於上述原因,達摩院的識別技術並沒有走傳統OCR的模式,即做行檢測、列檢測,反而是做單字識別。
達摩院技術團隊與四川大學專家聯手研發了一套全新的古籍識別系統。利用單字檢測、無監督單字聚類、小樣本學習、主動學習等機器學習方法,構造了一套邊識別古籍、邊訓練模型的系統,在首批數字化的20萬頁古籍上,達到了97.5%的識別準確率,AI現已能夠識別3萬類古籍文字。這套人機交互的識別方案,其效率比人工錄入效率提升近30倍,並且大大降低了對錄入人員的專業要求。
徐盈輝介紹,通過視覺手段,讓機器學習到單字,字和字之間的差異。通過這種技術手段,解決了字的聚合問題,解決了字的聚合問題以後,再由四川大學的古籍專家,包括老師帶的古籍界的學生們一起幫助做識別檢查,同時把專家的建議注入到系統裡面。“我們構建一套先基礎感知模塊去進行單字表徵,單字表徵以後做單字聚合,做完單字聚合以後,再由我們古籍專家跟我們系統發生交互,來告訴我們什麼做對了,什麼做錯了。這個反饋的信息會到我們後台,再進一步的去更新我們的表徵模型,我們再會產生相應的單字聚合結果,再回饋給我們的古籍專家,形成這樣一個閉環的工作模式。”徐盈輝說道。
目前,首批20萬頁古籍已完成數字化,並沉澱為覆蓋3萬多字的古籍字典,公眾可通過漢典重光平台翻閱、檢索古籍。
在中央文史研究館館員、四川大學教授陳力看來,古籍數字化對於原件、文物價值本身也是一種很好的保護。作為一個開放平台,漢典重光能夠為學者提供一個研究平台,同時為普通大眾提供一個學習的平台。陳力說道:“這才是讓古籍真正活起來,既能為研究者所使用,也能為我們的普通大眾所使用,它對於文化傳承來說,意義是十分大的。”
阿里巴巴達摩院院長張建鋒表示,守護中華傳世典籍,是科技工作者和文化工作者共同的使命。阿里計劃將這套技術工具連同古籍數字化平台一併捐贈,交由權威公共機構長期運營,同時,阿里仍將在古籍數字化工作上持續投入人力物力。
目前,在該系統基礎上,達摩院研發搭建了集古籍數字化交互式訓練、古籍全文內容檢索、古籍漢字字典三大功能於一體的漢典重光古籍數字化平台。隨著今後數字化規模的擴增,系統的識別準確率和識別效率還將不斷提升。
據徐盈輝透露,未來,該平台將嘗試拓展數據數量、進行更加詳細的數據挖掘、分析,提高識別準確率。達摩院希望能夠實現古籍全文檢索的能力:只要在平台輸入命名實體,比如一個人名、地名,就可以知道這個人名曾經出現過哪些典籍裡面。