機器學習自動翻譯失落的語言
1886 年,英國考古學家Arthur Evans 發現一塊古老石頭上刻著未知語言。石頭來自於地中海的克里特島。Evans 動身前往希臘的這個島嶼發現了更多刻有文字的石頭石板,時間可以追溯到公元前1400 年左右。
他與同行確定了兩種文字,其中最古老的被稱為Linear A,上溯至公元前1800 年到1400 年左右;另一種被稱為Linear B,是在公元前1400 年後出現的。許多人嘗試破解這些古老的文字,但都失敗而歸。直到1953 年業餘語言愛好者Michael Ventris 破解了Linear B。
原因是他做了兩個重要假設,其一是他假設 Linear B 中大量重複的字指代的是克里特島;其二是假設內容多數與古希臘有關。兩個假設被證明都是正確的。但Linear A 至今仍未破解。
MIT的兩位研究人員與Google AI實驗室的Yuan Cao開發了一種機器學習系統,能自動翻譯失落的語言,他們演示了用它去破譯Linear B(未提及Linear A)。他們的研究報告發表在預印本網站arxiv上。