Meta推出用於跨語言即時交流的”無縫”翻譯AI模型Seamless
Meta 人工智慧研究人員於本週四宣布,他們開發了一套名為”無縫交流”(Seamless Communication)的新人工智慧模型,旨在實現更自然、更真實的跨語言交流–從根本上實現”通用語音翻譯器”(Universal Speech Translator)的概念。這些模型本週與研究論文和相關數據一起公開發布。
旗艦模型被稱為Seamless,它將其他三個型號(SeamlessExpressive、SeamlessStreaming 和SeamlessM4T v2)的功能合併為一個統一的系統。據研究論文稱,Seamless 是”第一個公開可用的系統,它能即時解鎖富有表現力的跨語言通信”。
Seamless 翻譯器代表了利用人工智慧進行跨部落格交流的一個新領域。它結合了三種複雜的神經網路模型,能夠在100 多種口語和書面語言之間實現即時翻譯,同時保留說話者的聲音風格、情感和韻律。
SeamlessExpressive 專注於在語言間翻譯時保留說話者的聲音風格和情感細微差別:
https://seamless.metademolab.com/expressive/
正如論文中所描述的,”翻譯應該捕捉人類表達的細微差別。雖然現有的翻譯工具能夠熟練地捕捉對話中的內容,但它們的輸出通常依賴於單調的機器人文本到語音系統”。
SeamlessStreaming 可實現近乎即時的翻譯,延遲時間僅約兩秒鐘:
https://ai.meta.com/resources/models-and-libraries/seamless-communication-models/#seamlessstreaming
研究人員稱,這是”首個大規模多語言模型”,可在近100 種口語和書面語言中提供如此快的翻譯速度。
第三個模型SeamlessM4T v2 是其他兩個模型的基礎:
https://ai.meta.com/resources/models-and-libraries/seamless-communication-models/#seamlessm4t
它是去年發布的原始SeamlessM4T 型號的升級版。論文稱,新架構”提高了文字和語音輸出之間的一致性”。
研究人員寫道:”總之,Seamless 讓我們看到了將通用語音翻譯器從科幻概念轉變為現實世界技術所需的關鍵技術基礎。”
改變全球通訊的潛力
從使用智慧眼鏡進行即時多語言對話,到自動配音視訊和播客,這些模型的功能可以帶來全新的語音通訊體驗。研究人員認為,它也能幫助移民和其他在溝通上有困難的人打破語言障礙。
論文指出:”透過公開發布我們的研究成果,我們希望研究人員和開發人員能夠擴大我們所做貢獻的影響力,在這個相互聯繫和相互依存日益緊密的世界中,建立起旨在彌合多語言聯繫的技術。”
不過,研究人員也承認,這項技術也可能被濫用於語音釣魚詐騙、深度偽造和其他有害應用。為了促進安全和負責任地使用模型,他們採取了多項措施,包括音訊浮水印和減少幻覺毒性輸出的新技術。
在”Hugging Face”上公開發布的模型
根據Meta 對開放研究與合作的承諾,無縫通訊模式已在Hugging Face和Github .上公開發布。
此模型集包括Seamless、SeamlessExpressive、SeamlessStreaming 和SeamlessM4T v2 模型以及相關元資料。
Meta 希望透過免費提供這些最先進的自然語言處理模型,讓其他研究人員和開發人員能夠在此基礎上進行開發和擴展,幫助人們跨越語言和文化的障礙。此次發布彰顯了Meta 在開源人工智慧領域的領先地位,並為研究界提供了寶貴的新資源。
研究人員總結說:”總的來說,Seamless 可能帶來的多維體驗會使機器輔助跨語言交流的方式發生質的變化。”