谷歌推“同聲傳譯”系統Translatotron:語音翻譯無需文本轉換
谷歌AI官方博客最新博文中向我們介紹了一項實驗性質的新系統–Translatotron,它能夠直接將語音翻譯成為語音,中間不再需要任何文本。在博文中寫道:“Translatotron是首個能夠直接將一種語言的語音翻譯成為另一種語言語音的端到端模型。”
谷歌表示當前的翻譯系統分為三個步驟:自動語音識別,將語音轉換為文本;機器翻譯,將文本轉換為另一種語言;最後是文本轉語音(TTS)合成,也就是將翻譯好的文本生成語音。在這三個步驟衍生出了Google Translate等服務,不過這家科技巨頭希望通過一個模型就實現語音的翻譯,而不再需要藉助文本這個中間步驟。
Google AI軟件工程師Ye Jia和Ron Weiss表示:“該系統名為Translatotron,這個系統避免了將任務分成不同的階段。”谷歌表示這意味著更快的翻譯速度和更少的轉譯錯誤。該系統使用頻譜圖作為輸入並生成頻譜圖,同樣依賴於神經聲碼器和揚聲器編碼器,這意味著系統在翻譯後保留說話者的聲音特徵。
更多聲音樣本訪問這裡 .