Google Translate 的新改進
機器學習(ML)的進步推動了自動翻譯的進步,包括2016 年在翻譯中引入的GNMT 神經翻譯模型,它極大地提高了100 多種語言的翻譯質量。然而,除了最具體的翻譯任務之外,最先進的翻譯系統在所有方面都遠遠落後於人類的表現。
雖然研究界已經開發出了一些技術,成功地應用於高資源語言,如西班牙語和德語,這些語言有大量的訓練數據,但在低資源語言,如約魯巴語或馬拉雅拉姆語,性能仍有待提高。在受控的研究環境中,許多技術已經證明了對低資源語言的顯著改善(例如WMT 評估運動),然而這些在較小的、公開的數據集上的結果可能不容易轉換到大型的、網絡爬得數據集。
在本文中,我們將通過綜述和擴展各種最新進展,分享一些我們在支持語言的翻譯質量方面所取得的進展,特別是那些資源較少的語言,並演示如何將它們大規模應用於嘈雜的、Web 挖掘的數據。這些技術包括模型架構和訓練的改進,數據集中噪音的改進處理,通過M4 建模增加多語言遷移學習,以及單語數據的使用。BLEU 分數在所有100 多種語言中平均為增加5 分,翻譯質量提高如下圖所示。
谷歌的 BLEU 評分自2006 年成立後不久就開始翻譯模型。最後的動畫效果顯示自去年實施新技術以來得到了提升。
對高資源和低資源語言的改進
混合模型架構:四年前我們引入了基於RNN 的GNMT 模型,它帶來了巨大的質量改進,並使翻譯覆蓋了更多的語言。隨著我們對模型性能的不同方面的解耦工作的進行,我們替換了原來的GNMT 系統,用一個transformer 編碼器和一個RNN 解碼器來訓練模型,用Lingvo(一個TensorFlow 框架)實現。Transformer 模型已經被證明在機器翻譯方面比RNN 模型更有效,但我們的工作表明,這些質量的提高大部分來自變壓器編碼器,而Transformer 譯碼器並不比RNN 譯碼器明顯好。由於RNN 解碼器在推理時間上要快得多,我們在將其與transformer 編碼器耦合之前進行了各種優化。由此產生的混合模型質量更高,在訓練中更穩定,表現出更低的潛伏期。
網絡爬取:神經機器翻譯(NMT)模型使用翻譯句子和文檔的示例進行訓練,這些示例通常是從公共網絡收集的。與基於短語的機器翻譯相比, NMT 對數據質量更加敏感。因此,我們用一個新的數據挖掘器取代了以前的數據收集系統,它更注重精確率而不是召回率,它允許從公共網絡收集更高質量的訓練數據。此外,我們將Web 爬蟲從基於字典的模型轉換為基於14 個大型語言對的嵌入模型,這使得收集到的句子數量平均增加了29%,而精度沒有損失。
建模數據噪聲:具有顯著噪聲的數據不僅冗餘,而且會降低在其上訓練的模型的質量。為了解決數據噪聲問題,我們利用去噪NMT 訓練的結果,使用在有噪聲數據上訓練的初步模型和在乾淨數據上進行微調的模型,為每個訓練示例分配一個分數。然後我們把培訓當作一個課程學習問題——模型開始對所有數據進行培訓,然後逐漸對更小、更清晰的子集進行培訓。
這些進步尤其有利於低資源語言
反向翻譯:在最先進的機器翻譯系統中廣泛採用,反向翻譯對於並行數據稀缺的低資源語言特別有用。這種技術將並行訓練數據(一種語言的每句話都與它的翻譯配對)與合成並行數據(一種語言的句子由人編寫,但它們的翻譯是由神經翻譯模型生成的)相加。通過將反向翻譯合併到谷歌翻譯中,我們可以利用網絡上更豐富的低資源語言的單語文本數據來訓練我們的模型。這對於提高模型輸出的流暢性尤其有幫助,而這正是低資源轉換模型表現不佳的領域。
M4 建模:M4 是一種對低資源語言特別有幫助的技術,它使用一個單一的大型模型在所有語言和英語之間進行轉換。這允許大規模的遷移學習。分享一個例子,低資源語言像意第緒語能通過聯合其他相關日耳曼語言(如德國、荷蘭、丹麥等)進行訓練,與近一百個其他的、不可能共享一個已知連接的語言,獲得有用的信號模型。
評判翻譯質量
對於機器翻譯系統的自動質量評估,一個流行的衡量標準是BLEU 評分,它是基於系統的翻譯和人們生成的參考翻譯之間的相似性。通過這些最新的更新,我們看到BLEU 平均比以前的GNMT 模型提高了5 分,其中50 種資源最低的語言平均提高了7 分。這一進步與四年前從基於短語的翻譯過渡到NMT 時觀察到的增益相當。
儘管BLEU 分數是一個眾所周知的近似度量,但眾所周知,對於已經高質量的系統來說,它有各種各樣的缺陷。例如,有幾部作品演示了在源語言或目標語言上的翻譯語效應如何影響BLEU 分數,在這種現像中,翻譯的文本可能聽起來很彆扭,因為其中包含源語言的屬性(如詞序) 。基於這個原因,我們對所有的新模型進行了並排的評估,結果證實了在藍帶的效果。
除了總體質量的提高之外,新模型對機器翻譯幻覺的魯棒性也有所增強。機器翻譯幻覺是指當輸入無意義的信息時,模型會產生奇怪的“翻譯”。對於那些在少量數據上進行訓練的模型來說,這是一個常見的問題,並且會影響許多低資源語言。例如,當考慮到泰盧固語字符的字符串“షషషషషషషషషషషషషషష”,舊的模式產生了荒謬的輸出“深圳肖深圳國際機場(SSH)”,似乎試圖理解的聲音,而新模型正確學會直譯為“ Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh Sh”。
結論
儘管對於機器來說,這些都是令人印象深刻的進步,但我們必須記住,特別是對於資源較少的語言,自動翻譯的質量遠遠不夠完美。這些模型仍然是典型的機器翻譯錯誤的犧牲品,包括在特定類型的主題(“領域”)上表現不佳,合併一種語言的不同方言,產生過多的字面翻譯,以及在非正式語言和口語上表現不佳。
儘管如此,通過這次更新,我們很自豪——提供了相對連貫的自動翻譯,包括支持的108 種語言中資源最少的語言。我們感謝學術界和工業界的機器翻譯研究人員所做的研究。
致謝
這一成果基於以下這些人的貢獻:Tao Yu, Ali Dabirmoghaddam, Klaus Macherey, Pidong Wang, Ye Tian, Jeff Klingner, Jumpei Takeuchi, Yuichiro Sawai, Hideto Kazawa, Apu Shah, Manisha Jain, Keith Stevens, Fangxiaoyu Feng, Chao Tian, John Richardson, Rajat Tibrewal, Orhan Firat, Mia Chen, Ankur Bapna, Naveen Arivazhagan, Dmitry Lepikhin, Wei Wang, Wolfgang Macherey, Katrin Tomanek, Qin Gao, Mengmeng Niu, 和Macduff Hughes.