麻省理工機器學習系統幫助破解失傳的語言
麻省理工學院的研究人員創建了一個新系統,利用機器學習來幫助語言學家破譯那些已經消失在時間中的語言。研究表明,大多數曾經存在過的語言都不再被使用,有幾十種死亡的語言被認為是未被破譯的。語言學家對語法、詞彙和句法的了解不夠,無法理解這些失傳語言留下的文本。
語言學家面臨的挑戰是很多的,這些失傳的語言中,很多都沒有一個經過充分研究的相對語言可以與之相比。有些還缺乏空白和標點符號等分隔符。麻省理工學院計算機科學與人工智能實驗室最近在破譯失傳語言方面取得了突破性進展。
研究人員創建了一個新的系統,已經能夠自動破譯一種失傳的語言,而不需要它與其他語言關係的高級知識。該系統可以確定語言之間的關係,最近,該系統顯示伊比利亞語與巴斯克語沒有關係,一些語言學家認為。該項目的科學家們有一個最終目標,就是能夠用僅有的幾千個詞來破譯那些讓語言學家們感到困惑的語言。
項目負責人Regina Barzilay表示,該系統依靠的是基於歷史語言學見解的七項原則。這些原則認為,語言一般只以可預測的方式進化。語言很少增加或刪除整個音,而且很可能出現音的替換。例如,一個在母語中帶有”P “的單詞在後裔語言中可能會變成”B”,但由於發音的差距,它不太可能變成”K”。
利用這些語言限制,麻省理工學院的研究人員開發了一種解讀算法,能夠處理龐大的可能變換空間。該算法可以學習將語言聲音嵌入到一個多維空間中,其中發音差異體現在相應向量之間的距離上。該模型旨在分割古代語言中的單詞,並將其映射到相關語言中的對應物當中。