騰訊建全球最大甲骨文單字資料庫:一個「牛」有3500種寫法
2016年,中國文字博物館曾向大眾發出懸賞令,承諾每破解一個甲骨文字便獎勵10萬元人民幣。然而直到2023年前,僅有一位學者憑藉著對「蠢」字的研究獲得了這份獎金。截至目前,已發現的甲骨數量接近16萬片,其中包含約4500個不同的甲骨文字。但遺憾的是,這些字符中只有大約1500個被成功解讀出來。
造成這現象的主要原因包括:許多甲骨上的文字模糊不清、相似字形難以區分以及人工查找效率低下等挑戰。
為了加快甲骨文的解碼速度,騰訊公司建立了一個包含超過143萬個單字記錄的世界最大甲骨文資料庫,並利用數位技術實現了相似形狀和相關甲骨之間的匹配與關聯功能。該資料庫已於近期開源。
透過這個平台,使用者可以快速檢索到相關資訊。例如,在搜尋欄輸入“牛”,系統將返回3504種與之形態相近或相關的甲骨文樣本及其對應的原始材料。
除此之外,騰訊還發布了首個多模態甲骨文資料集(涵蓋一萬份甲骨拓片及摹本),詳細標註了每個單字的具體位置及其所屬類別等信息,這一系列舉措有幫助於加速甲骨文被考釋的進程。