全球每年消失24種語言AI已成為瀕危語言新的救星
去年,聯合國曾宣布將2019年為“國際本土語言年”,現在離這個節日已經越來越近。實際上,這一舉措旨在提高人們對瀕危語言的認識,因為這些語言正面臨滅絕的危險。“通過語言,人們保留了他們的社區的歷史、習俗和傳統、記憶、獨特的思維方式、意義和表達方式。
他們也用語言來構建自己的未來。在人權保護、良好治理、和平建設、和諧和可持續發展等領域,語言是關鍵所在”:這些也是聯合國可持續發展目標(SDGs)的核心。
據聯合國統計,世界上有7000多種語言,但消亡的速度卻非常快,平均每個月都有2種語言消失。由於人工智能在語言存檔和學習方面具有優勢,人工智能在拯救瀕危語言的鬥爭中變得比以往任何時候都更加重要。
Jason Lovell正在學習新西蘭的土著語言“毛利語”,但缺少幫助他練習的對象,因此他與IBM的“沃森人工智能”合作,創立了一個Facebook messenger聊天機器人,該聊天機器人能夠理解並回復用戶的信息,包括毛利語和英語。即使用戶犯了拼寫錯誤,比如“Reobot”,對Lovell的聊天機器人來說,也不會造成理解障礙。Lovell希望在不久的將來引入發音幫助。通過提供毛利語交流機會,Reobot可以幫助學習者更快地培養自信和技能。
為了向居住在偏遠社區的兒童教授澳大利亞土著語言,一組來自ARC語言動力學卓越中心(CoEDL)的研究人員了Opie,這是一種低成本、易於運輸的機器人。在學習故事、遊戲和課程時,Opie的眼睛能夠和孩子們互動,此外,機器人能夠記錄孩子們的語言技能,協助老師追踪他們的學習進度。CoEDL已經與穀歌展開合作,為土著語言轉錄和構建人工智能模型,這要歸功於谷歌的開源人工智能平台TensorFlow。這台機器學習技術為語言學家省去了數百萬小時的時間,在CoEDL的存儲庫中記錄了超過4萬小時的錄音。
對許多組織來說,維護語言數據數據並將其引入土著社區是一項挑戰。第一人民文化委員會(FPCC)的使命是支持不列顛哥倫比亞省的土著語言、藝術、文化和遺產的複興,與當地社區合作,將語言數據存檔,並通過其First Voices平台進行教學。First Voices的最新創新是一款鍵盤應用,用戶可以在移動設備上的任何應用上輸入超過100種本地語言,包括社交媒體、電子郵件和文字處理。
First Voices存儲的數據是一個開源的雲原生內容服務引擎,其將人工智能和機器學習整合在內。
未來學家托馬斯·弗雷(Thomas Frey)設想出一種全球語言檔案館,作為一個活生生的博物館,一座“語言的盧浮宮”,在那裡,已經滅絕的語言甚至都可以被學習:“將收集到的足夠多的、音頻和書面文件輸入到人工智能語言重建引擎(AI Language Recreation Engine),其能夠生成一個功能性的三維立體化身,將語言傳授給想要學習它的人。”人工智能引擎將更進一步,填補任何語言空白,在需要時創建一種語言的書面形式,並提供語言之間的翻譯。
弗雷將瀕危語言項目(Endangered Languages Project)作為創建全球語言檔案的第一步,該項目由第一人民文化委員會在夏威夷大學夏威夷分校的瀕危語言目錄/瀕危語言項目(ELCat/ELP)管理。瀕危語言項目匯集了瀕危語言的資源和信息,這要歸功於全世界的合作者,到目前為止,該項目已擁有3418種語言的數據,其中許多語言都位列瀕危語種中。