北大與字節合作推古籍數字化平台:3年完成萬部古籍整理
近日,由“北京大學—字節跳動數字人文開放實驗室”研發的古籍數字化平台“識典古籍”測試版正式上線。據介紹,該平台涵蓋390部經典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。未來三年將陸續完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄,屆時將全部免費開放。
據了解,上述實驗室系今年3月北京大學與字節跳動合作成立,將人工智能技術應用於古籍資源的智能化整理。“識典古籍”平台上線是雙方合作的最新進展。與其他古籍數字化平台相比,“識典古籍”頁面簡潔、瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡體轉換功能,後續將上線手機移動版平台。
當前,中國的古籍數字化還處於初級階段,面臨技術難度高、資金缺口大、人才緊張等難點。相關資料顯示,現存的20多萬種古籍中,只有8萬種完成影像數字化掃描,近4萬種完成文本數字化。據專家統計,從1949年到2019年,國內共修復整理出版古籍近3.8萬種,要將現存古籍全部修復整理出來,可能需要300年時間;若利用人工智能技術輔助修復整理,大概二三十年就能完成。
據“識典古籍”項目負責人介紹,該平台當前主要使用了三種技術,包括文字識別、自動標點和命名實體識別。據悉,目前行業內OCR識別準確率平均為93%至94%,“識典古籍”的準確率為96%至97%。