Nature重磅:科幻「巴別魚」真來了? AI實現人類101種語言語音互譯
《銀河系漫遊指南》中的神奇「巴別魚」,賦予了人們瞬間跨越語言鴻溝的能力,是無數人心中「高效語言交流」的終極形式。如今,我們距離實現這個夢想或許不遠了。就在今天,權威科學期刊Nature 報導了由Meta 開發的開源多語言、多模態機器翻譯模型SeamlessM4T,其突破性地實現了100 多種語言在語音-語音、語音-文本和文本-語音方面的高效率翻譯,為全球語言溝通帶來了新的可能。
具體而言,SeamlessM4T 能夠接受這些語言中的任何一種的文本或語音輸入,並將其翻譯為文本,還可以直接將語音翻譯為36 種語言的語音。
不僅如此,SeamlessM4T 在處理語音到文字任務時,抵禦背景噪音和適應說話者變化的能力也比其他系統平均高出約50%,展現出強大的穩健性。
對此,塔林理工大學語言處理教授Tanel Alumäe 在評論文章中表示,“作者利用現實世界數據的方法將為語音技術開闢一條充滿希望的道路,有望與科幻作品中的技術相媲美。”
他還寫道,「這項工作最大的優點並非提出的想法或方法,而是運行和優化該技術的所有數據和程式碼都可公開獲取,儘管模型本身僅可用於非商業用途。研究人員將他們的翻譯模型描述為’基礎模型’,這意味著它可以在精心策劃的數據集上進行微調,以實現特定目的,例如提高某些語言對或專業術語的翻譯品質。
目前,在這項研究的基礎上,Meta 基於UnitY2 架構,運用層級字元到單元的上採樣和非自回歸文本到單元的解碼方法,訓練出了改進版本SeamlessM4T V2,在保持高準確率的同時,加快了生成語音和文字翻譯結果的速度。
AI 正在打破人類語言壁壘
尽管当前的机器翻译技术已经取得显著进展,但大多局限于文本翻译,语音到语音翻译(S2ST)面临诸多挑战。
現有的多語種翻譯系統通常依賴級聯繫統,透過多個子模型串聯完成複雜任務,不僅翻譯效率低,而且主要適應於少數幾種語言,在面對背景噪音和說話者變化等不穩定因素時,魯棒性不足。
為了解決這些問題,SeamlessM4T 應運而生。該模型基於SONAR 多語言和多模態嵌入空間架構,將語音、文字的處理能力有效結合,並透過海量原始語音和文字資料自動挖掘對齊資源,實現了翻譯的準確性和流暢性提升。
另外,研究團隊也採用自我監督和半監督式學習方法訓練模型,使其能從大量原始資料中學習,減少了對人工特定標籤的依賴。
圖| SEAMLESSM4T-V2 系統架構
在資料層面,SeamlessM4T 透過新的語言辨識(LID)模型識別100 多種語言。在研究過程中,Meta 團隊基於SONAR 嵌入空間為200 種語言提供了單一的文本編碼器和解碼器,並為37 種語言提供了語音編碼器,且透過文字到文字翻譯(T2TT)任務,證明注意力機制並非實現合理翻譯準確率的必要條件。利用SONAR 的文字和語音編碼器,Meta 團隊挖掘出三種對齊數據,建構了涵蓋37 種語言、超過47 萬小時的SeamlessAlign 語料庫。
SeamlessM4T 在多个翻译任务中的表现显著超过了传统的级联模型,在语言覆盖和任务处理速度等方面优势显著。与 AudioPaLM、WHISPER 等大型语音理解和生成模型相比,SeamlessM4T 优势明显。
在语音到文本翻译(S2TT)任务的 X-eng 方向,SeamlessM4T-V2 的 BLEU 得分比传统级联系统提高了 4.6 分,性能提升显著;对比 AudioPaLM 2 – 8B AST 等直接 S2TT 模型,提高了 6.9 分,展现出其在多语种翻译中的强大优势。
在语音到语音翻译(S2ST)任务中,SeamlessM4T-LARGE 比两阶段级联模型的 ASR-BLEU 得分高出 8 分,改进以后的SeamlessM4T-V2 进一步提升了 3.9 分,显著领先于其他同类系统。
在語音到文字翻譯的CVSS 任務中,SeamlessM4T – V2 相較於兩階段級聯模型,ASR – BLEU 得分提高了9.6 分。
圖| SOTA 語音到文字翻譯/語音到語音翻譯模型
在零樣本文字到語音翻譯(T2ST)任務中,SeamlessM4T – LARGE V2 部分語言方向的表現與級聯模型相當,甚至更優,體現了模型強大的通用性和靈活性。
這表明,SeamlessM4T 在沒有訓練資料的情況下,仍然能夠提供準確的翻譯結果,進一步提升了模型的通用性和靈活性。
SeamlessM4T 在抗噪音和適應說話人變化方面也實現了技術突破。在背景噪音和說話者變化的實驗中,SeamlessM4T – V2 比WHISPER – LARGE – V2 的表現提升近50%。
在語音到語音翻譯任務中,SeamlessM4T – V2 抗背景噪音能力提高42%,對說話者變化的適應性提升66%。這些改進使SeamlessM4T 在嘈雜環境等實際應用情境中,仍能保證高效、精確的翻譯表現。
圖| 多工處理結果
此外,隨著AI 技術的廣泛應用,機器翻譯模型中的毒性和偏見問題備受關注。 Meta 團隊對SeamlessM4T 進行了嚴格的毒性和性別偏見評估,並採取了緩解措施。
圖| 語音到文字翻譯和語音到語音翻譯在添加了毒性考量的28 種語言方向上的平均結果
在毒性检测方面,他们采用 ETOX、MuTox 和 Mintox 等工具,排除训练中的有害数据,减少模型产生有毒输出的概率,为用户提供健康的交流环境;在性别偏见方面,研究团队通过 BLASER 2.0 等工具对 SeamlessM4T 进行检测和优化,SeamlessM4T 在处理性别变化时比之前版本表现出更强的鲁棒性,尤其是在 S2ST 任务中的性别变化鲁棒性显著提升。
警覺潛在風險
儘管SeamlessM4T 已經可以翻譯約100 種語言,但仍存在一些限制。
世界上約有7000 種語言,該工具在許多人類易處理的場景中仍面臨困難。而且,在實際應用中,SEAMLESSM4T 系統的ASR 表現受使用者性別、種族、口音和語言差異影響,導致識別和翻譯不準確,限制了其在多元化人群中的應用。
在處理俚語和專有名詞時,該系統在不同資源程度語言中的翻譯質量參差不齊;在實時交互場景中,由於語音交流對即時反饋要求高,用戶難以評估輸出質量,誤譯或毒性內容風險較高,且無法像書面溝通那樣修改。同時,語音的韻律和情緒訊息在當前系統輸出中未被充分體現,影響訊息準確傳達。
研究人員表示,未來將進一步研究語音的韻律和情感,讓翻譯後的語音輸出更自然生動。另一方面,低延遲語音翻譯和串流翻譯技術成為關鍵突破點,低延遲可減少翻譯時間差,使交流更流暢。
在評論文章中,康奈爾大學助理教授Allison Koenecke 則從安全方面提出了擔憂,「基於語音的技術越來越多地用於高風險任務,例如在醫療檢查中做筆記或轉錄法律程序,像Meta 團隊開發的模型正在加速這一領域的進展。
Koenecke 提到,鑑於現有模型的表現在不同語言之間差異很大,必須格外小心,以確保模型能夠熟練翻譯或轉錄某些語言中的特定術語。這方面的努力應與電腦視覺研究人員的工作同步進行,後者正在努力改善圖像辨識模型在代表性不足群體中的不佳表現,並防止模型做出冒犯性預測。
此外,她也認為,未來有必要運用以設計為導向的思維,確保使用者能正確理解這些品質參差不齊的模型所提供的翻譯。開發者也應該考慮如何告知模型的限制。這可能包括在準確性存疑時完全放棄輸出,或為低品質的輸出配上書面警告或視覺提示。也許最重要的是,如果使用者願意,他們應該能夠選擇不使用語音技術,例如在醫療或法律環境中。
參考連結: