“全息字典”:古今漢字任你查
快捷、權威、形象——準確查找一個難檢字的相關信息再不用跑遍古籍閱覽室,翻便“大部頭”,只需輕點鼠標——登錄漢字全息資源應用系統,點擊現代通用字集,搜索要查找的字,不僅能夠顯示其現代字形、字音、字義信息,還可以查到該字從甲骨文、金文到篆書、楷書的歷史字形演變過程,從《說文》《爾雅》 《方言》《釋名》一直到《康熙字典》等歷代辭書對該字的釋義,及其在一些常用古籍文獻中被使用的情況。
日前,國家語委重大基礎資源建設項目“通用漢字全息建設”的標誌性成果“漢字全息資源應用系統”正式啟動上線。該項目旨在運用現代中文信息處理技術,構建一個具有多維關聯關係、科學系統、高效實用的漢字全息數據庫。
“無論是初學漢字的小學生,還是研究漢字的學者,系統都可以提供相應的幫助。”項目主持人、北京師範大學教授王立軍介紹,系統採用的多層級字集設計模式,包括常用字集、現代通用字集、古籍印刷通用字集、全字符集等。常用字集可以滿足中小學基礎教育領域的一般需要;現代通用字集可以滿足社會文化領域一般漢字使用者的需要;古籍印刷通用字集面向具備一定古漢語知識、閱讀一般古籍文獻的用戶;全字符集則可以滿足漢字研究的專業人士需求,為專業研究提供支撐。
借助資源庫,給漢字家族繪家譜
作為一名古文字愛好者和研究者,張華的書桌上擺滿了各種字典、工具書——查找一個字在不同時期形、音、義的演變經常要翻閱多部“大部頭”才能找到相對準確、權威的答案,而線上的一些漢字數據庫很多又存在收錄不全、權威性差等諸多問題。如今,“漢字全息資源應用系統”的正式上線可能讓他再不用犯難——借助資源庫,“古今漢字任你查”已不再是夢想。
本期上線的系統涵蓋字符集4種,其中常用字集3500字,通用規範字8105字,古籍印刷字16490字,全字符集81722字;還有辭書20種,古籍文獻60種,歷代字形圖415675個。其中包括大量的圖形信息資源和文本信息資源,分別來自古文字拓片、文字編、規範字表、編碼字符集、歷代辭書、經典文獻、中小學語文教材等,涵蓋了古今各個時期文字的形、音、義、用、碼五大方面的重要信息。
這一數據庫,可以說是“海量”。如此龐大的信息量,是如何做到相互對應、關聯的呢?
如果說建立數據庫是給漢字家族繪製一張家譜,那麼建立關聯則是搞清譜系、輩分等關係。“首先是漢字屬性的分解。構建一個具有多角度關係的漢字實用數據庫,必須以漢字的屬性作為基本的依托。”北京師範大學教授王寧指出,團隊從20世紀90年代開始總結漢字的屬性,除形、音、義之外,還增加碼、用兩個部分。碼是漢字在計算機中的編碼,用是漢字的使用,而且做了大量的屬性細化研究,這樣就有條件將籠統的漢字個體的資源庫,改造為漢字的屬性庫,解決關聯的多角度問題。
王寧解釋:“其次是層次的確立,根據’漢字效用遞減率’,我們將漢字分為常用-通用-適用-罕用-無用5個層。第一、二層次涵蓋36000字,以外的字只存記憶,不做深度,這樣一方面可以在應用中擴大有用信息的使用度,另一方面將垃圾信息、無用信息退出關聯,不干擾有效信息的集合和調用。”
“再次就是中介的尋求,我們繼承傳統語言學的研究成果,以《說文解字》的9353個小篆及其重文為中介來關聯。古文字的確切識讀,絕大部分是從《說文》開始的,這樣就保證了不同形制、不同字體、不同時代漢字的最大限度關聯。”王寧補充道,正是依靠《說文》小篆這些“核心家族成員”作聯繫,漢字家族內部不同族群的譜系才得以繪製在一起。
溝通古今,提供漢字準確屬性信息
實現讓通用規范漢字溝通古文字、繁體字,是該資源庫的又一重要特徵。據介紹,系統的主體字集是國家語委2013年公佈的《通用規范漢字表》的8105個規范漢字及其關聯字形。《通用規范漢字表》屬於簡化字系統,分為一級字表(即常用字表,3500字)、二級字表(3000字)、三級字表(1605字)。《通用規范漢字表》作為數據庫子庫的B庫,直接和A庫(傳承字、繁體字和隸定字)關聯,進而與小篆等古文字(C庫)關聯,從而實現了古今、簡繁漢字的有效貫通。
如何保證對收錄的每個漢字形、音、義解釋的權威性?
王立軍介紹,系統的處理方法是:選取歷代具有代表性的辭書,並選擇最優的版本作為搭建框架的基礎素材,以此為基礎建構數據之間的深度關聯。選擇的辭書包括從《爾雅》《說文》《釋名》《方言》《廣韻》《集韻》《康熙字典》《漢語大字典》《新華字典》和《通用規范漢字字典》等。在字形方面,簡化字的部首採用2009年國家語委發布的《漢字部首表》,即201個主形部首和99個附形部首,非簡化字採用214部首體系,來源於《康熙字典》。簡化字和繁體字的筆劃數屬性參考《通用規范漢字字典》等。結構類型(六書)屬性參考《說文解字》。字音方面,現代漢語拼音和注音字母主要參考《通用規范漢字字典》和民國時期《國語辭典》等;近代音來源於《中原音韻》;中古音來源於《廣韻》。字義方面,常用義項來源於《通用規范漢字字典》,並給出歷代辭書的釋義內容。
多種屬性的綜合呈現,可以加深人們對每個漢字的理解。比如“既然”的“既”和“即使”的“即”,在使用過程中容易混淆,但參考小篆字形就不會了——“既”是一個人背對著飯桌,表示吃完了,這個字就是表示已經發生了;而“即”是一個人正對著飯桌,靠近它,還沒吃飯,所以是表示即將進行的。了解了這一層面,理解就加深了,也就很難出錯了。
漢字不是一個個“孤零零”的符號,漢語文獻正像軀體的血肉,豐富著漢字殿堂的內容。在每個字的“用例”一欄,系統選取具有代表性的傳世文獻作為古籍用例的來源,包括十三經、二十五史、二十二子等三大典籍系統,提取漢字在這些文獻中的使用例句,供研究者參考使用。
多種檢索,滿足不同用戶需求
與查字典類似,方便檢索也是系統的一大特徵。為方便使用者更便捷地輸入需要檢索的字,系統提供了單字、拼音、部首、部件、筆劃等五種可輸入的檢索方式,使用者可以根據自己的喜好和需求,選取適合自己的方式。除單字檢索外,還可以滿足綜合檢索、專書檢索和歷代字形檢索。
“你看,’典’字是兩隻手捧著書卷,這多麼形象,對於文史研究者來說用於研究也太方便了,我現在就想擁有。”剛剛演示完動畫,現場主持人、北京師範大學文學院教授康震興奮地說。
“資源庫可作為文字和文化愛好者提高文化知識和綜合素養的學習平台,為傳統文化愛好者提供權威的學習內容;可以作為基礎教育及漢語國際教育領域的教學平台,為學生學習、教師備課提供豐富的教學資源,從而更好地服務我國基礎教育;可作為文字學及相關專業領域專家學者的科研平台,為專家學者提供對數據資源進行深度挖掘的工具,彌補傳統手工獲取資源、聯繫資源方式的局限;可作為漢字類數字化產品的開發平台,為開發者提供海量的經過專業學術加工的可靠漢字屬性資源。”王立軍指出。