未來自動翻譯軟件將如何突破多語種翻譯障礙?
全球有7000多種語言,但其中4000多種僅能書寫,無法進行聽說交流,像谷歌翻譯這樣的自動翻譯軟件也僅能翻譯100種語言,目前,科學家最新研究稱,未來我們能使用自動翻譯軟件實現更多語言的交流溝通。
設想一下,當你收到一條可能包含救命的信息,但你一個字也看不懂,你甚至不確定這條信息是用哪種語言書寫的,此時你怎麼辦?
如果該條信息是法語或者西班牙語,把它輸入到自動翻譯軟件中會就立即解開謎團,並給出一個準確的英語版翻譯答案,然而,全球許多語言仍無法進行機器翻譯,包括數百萬人使用的語言,例如:非洲的沃洛夫語、盧干達語、契維語和埃維語。這是因為支持這些翻譯軟件的算法是基於人類翻譯文本,理想情況下,該語言的翻譯文本需要達到數百萬字。
由於加拿大議會、聯合國和歐盟等多語言機構的存在,英語、法語、西班牙語和德語等語言有大量的翻譯素材,不同國家的譯員人工翻譯大量筆錄和其他文件,僅歐洲議會在過去10年裡,在23種語言中產生了13.7億個單詞的翻譯數據。
然而,對於那些使用廣泛但翻譯內容不豐富的語言,就不存在這樣的數據信息庫,它們也被稱為低資源語言。這些語言的備用機器翻譯培訓素材包括宗教出版物,例如:翻譯數次的《聖經》,但這是匱乏的翻譯數據,並不能設計準確、廣泛應用的自動翻譯軟件。
目前,谷歌翻譯軟件提供了大約108種不同語言的交互翻譯功能,而微軟“必應翻譯”提供了大約70種語言,然而,世界上有7000多種口語,其中至少4000種擁有文字系統。
這種語言障礙對於任何需要快速收集精確全球信息的人而言都是一個難題,甚至包括情報機構,美國情報機構IARPA項目主管卡爾·魯比諾說:“一個人對了解世界越感興趣,他就越有能力獲得非英語的資源數據,現今我們面臨諸多挑戰,例如:經濟、政治不穩定,新冠病毒肆意傳播,全球氣候變化,探索地外空間等,這些挑戰都將面臨著多語言環境。 ”
培訓一名人工譯員或者情報分析員學習一門新語言可能需要幾年時間,即便如此,它可能也不足以完成當前的任務。魯比諾說:“例如:在尼日利亞,人們使用的語言超過500種,即使是尼日利亞國內最優秀的語言專家,也可能僅懂得其中部分語言。”
為了突破這一障礙,IARPA投資一項研究,用於開發一種語言系統,能夠從任何資源匱乏的語言(無論是文本語言還是語音語言)中尋找、翻譯和總結信息。
人們可以想像一下,一種新型搜索軟件,用戶在搜索框鍵入英文,就會收到一個英文摘要文檔列表,這些文檔都是從某種外語翻譯過來的,當他們點擊其中一個文檔,完整的翻譯文件就會生成,雖然該研究經費來自於IARPA,但研究是由競爭團隊公開進行,其中大部分翻譯文件現已發布。
人們學習一門語言,並不是用於閱讀幾年以來的國際議會記錄。
美國哥倫比亞大學計算機科學家凱瑟琳·麥基翁帶領一支研究團隊,致力於研究多語種翻譯,她發現該領域帶來的益處遠超出情報偵察,她說:“我們的最終目標是促進來自不同文化的人們產生更多互動交流,以及獲得更多關於他們的信息。”
該研究團隊使用神經網絡技術來解決這一難題,這是一種模仿人類思維某些方面的人工智能形式,近年來,神經網絡模式已經徹底改變了語言處理,他們可以學習單詞和句子的含義,而不僅僅是記憶單詞和句子,他們結合上下文發現,像英語中的“dog”、“poodle”,與法語中的“chien”表達的概念是相似的,即使它們字母構成相差很大。
然而,要做到這一點,該語言模型通常需要經過數百萬頁文字翻譯訓練,其挑戰在於讓語言模型像人類一樣,基於少量數據學習,畢竟人類不需要閱讀幾年的國際議會記錄來學習一門語言。
美國麻省理工學院計算機科學家蕾賈納·巴爾齊萊是另一支研究團隊的成員,她說:“無論你何時學習一種偏門語言,相信你一生之中都不會看到現今機器翻譯系統用於學習英法互譯的數據量,你能看到非常少量的一部分語言翻譯數據,能概括和理解法語。同樣地,你也希望看到新一代機器翻譯系統,即使沒有迫切需要語言翻譯數據的需求。”
為了解決這個難題,每個研究團隊被分為更小的專家小組,他們致力於完善語言翻譯系統,該系統的主要組成部分是:自動搜索、語音識別、翻譯和文本概括技術,以上均適用於資源較少的語言。自2017年該項目開始以來,研究團隊已經研究了8種不同語言,包括:斯瓦希里語、塔加拉語、索馬里語和哈薩克語。
其中一個突破是從網絡上獲取文本和語音,包括新聞文章、博客和視頻內容,由於世界各地網絡用戶都在使用自己的母語發布信息,許多資源匱乏的語言在線數據也在不斷增多。
南加州大學計算機科學家斯科特·米勒說:“如果你搜索互聯網,想獲取索馬里語的相關數據,你會找到上億個單詞,這是沒有問題的,你可以在網絡上獲得幾乎所有語言的文本資料。”
以上在線數據通常是單一語言模式,意味著索馬里語文章或者視頻只能使用母語閱讀,沒有平行對應的英語翻譯。但是米勒表示,神經網絡模型可以在許多不同語言的單語數據上進行預訓練。
米勒稱,在預訓練過程中,神經模型學習了人類語言的一般結構和特徵,然後可以將這些結構和特徵應用到翻譯任務中,沒有人真正知道這些模型真正學到了什麼結構,它們有數百萬個參數。
一旦對多種語言進行預訓練,這些神經模型就可以使用極少的雙語訓練(即並列數據)在不同語言之間進行翻譯,幾十萬字的並行數據就足夠了——相當於幾本小說的內容。
在這個總結概括過程中,神經模型表現出一些最奇特的方式——它們能產生“幻覺”。
多語言搜索引擎能夠梳理文本形式的語言,這將帶來另一組複雜的問題,例如:語音識別和轉錄技術通常會遇到之前未遇到過的聲音、名稱和位置問題。
英國愛丁堡大學語音技術專家彼特·貝爾是試圖解決該問題的小組成員之一,他說:“我舉的一個例子中所涉及的國家與西方國家相比不太出名,該國一個政客被暗殺,他的名字現在真的很重要,但在以前,這個名字很晦澀,並不引人關注,那麼你如何在音頻中找到這位政客的名字呢?”
貝爾和同事採取的一種解決方案是再次檢索那些被轉錄的帶有不確定性的單詞,翻譯軟件並不熟悉這些不確定性的單詞,如果再次重新檢索,很可能就會找到這位鮮為人知的政客的名字。
一旦找到並翻譯了相關信息,搜索引擎就會為用戶進行匯總,在這個總結的過程中,神經模型會表現出一些最奇怪的特徵——產生“幻覺”。
想像一下,當你正在搜索一篇關於星期一抗議者攻擊某棟建築的新聞報導,但搜索結果顯示,抗議者的暴力行徑是發生在星期四,這是因為神經模型在總結報告時,利用了基於數百萬頁訓練文本的背景知識。在這些文本中,有更多的抗議者在星期四攻擊建築物,因此得出結論。
類似地,語言翻譯軟件的神經模型可能在摘要概述中插入日期或者數字,計算機科學家稱之為“幻覺”。
愛丁堡大學計算機科學家米蕾拉·拉帕塔稱,這些神經網絡模型非常強大,它們記憶了很多語言,還添加了源程序中沒有的單詞。據悉,她正在為一支研究團隊開發設計語言概述元素。
米蕾拉和同事通常提取每個文檔中的關鍵詞來避免該問題,而不是讓翻譯軟件使用句子進行總結,關鍵詞不如句子優雅,但它們限制了該語言模型表達韻文詩歌的傾向。
當新冠病毒大流行時,人們突然要將一些基本的健康提示翻譯成多種語言。
雖然語言搜索引擎是為現有語言而設計的,但是該項目包括了一個研究數千年、現無人使用的小語種,這些古老的語言資源非常少,因為許多語言僅以文本片段的形式存在,他們為可應用於現代低資源語言的技術提供了一個有效試驗。
麻省理工學院博士生Jiaming Luo和合作者共同開發了一種語言算法,可以計算出某些古代語言是否有現代存留,通過提供這些語言的基本信息,以及語言變化的通常狀況,該語言算法獲得了一個先行條件,基於以上信息,該語言模型能夠獨自獲得一些發現,期間僅使用少量數據。
通過這種語言算法,他們發現一種來自近東地區的古老語言烏加里特語與希伯來語密切相關,他們還得出結論稱,一種古老的歐洲語言——伊比利亞語,與其他歐洲語言相比,更接近於巴斯克語(但與巴斯克語的關聯度並不高)。
麻省理工學院計算機科學家蕾賈納希望該方法能夠激發更廣泛的變化,並使神經模型不那麼需要數據支持,事實證明,我們對大量並行語言翻譯數據的依賴,已成為研發語言翻譯系統的一個弱點,因此,如果我們真的研製好的技術,無論是用於解密,還是用於小型語言翻譯,它都將推動整個領域向前發展。
研究小組現已成功設計了多語言搜索引擎的基礎版本,並用每種新語言對其進行改進,IARPA項目經理魯比諾認為,這些技術可以改變情報收集的方式,我們確實有機會徹底改變分析師對外語數據的學習方法,使講英語的單語分析師獲得之前無法處理的多語數據。
當情報分析人員試圖從外部獲取資源稀缺的語言數據時,該語言的母語者們也在積極獲得其他語言的重要信息,他們不是為了間諜活動,而是為了改善自己的日常生活。
德國薩爾蘭大學計算機科學博士生戴維·伊費奧魯瓦·阿德拉尼說:“當新冠病毒全球流行時,突然需要將基本的衛生提示翻譯成多種語言,由於翻譯質量問題,我們無法使用機器翻譯模型實現這一點,我認為開發多語言翻譯軟件教會我們很多東西,擁有適合於資源匱乏語言的技術是非常重要的,尤其是在我們急需的時候。”
阿德拉尼來自尼日利亞,他的母語是約魯巴語,他一直在創建約魯巴語-英語互譯的數據庫,這是名為“打破非洲多語言障礙”的非贏利項目的一部分,他和研究團隊通過收集翻譯後的電影劇本、新聞、文學作品和公開演講等資料,創建了一個新的數據集。然後,他們利用這個數據集對宗教文本模型進行微調,以提高該數據集的準確性。在Masakhane等基層團體的幫助下,埃維語、契維語、盧干達語等其他非洲語言也在進行類似的努力。
相信未來有一天,我們所有人都可能在日常生活中使用多語言搜索引擎,只需點擊一個按鈕,就能解鎖世界知識,在此之前,真正理解一種資源匱乏語言的最好方法可能就是學習它,並加入多語言在線人類交流。(葉傾城)