微軟的人工智慧語音產生器在測試中達到與人類同等水平
微軟公司開發了一種新的神經編解碼語言模型Vall-E,在自然度、語音穩健性和說話者相似性方面都超越了先前的成果。它是同類產品中第一個在兩個流行基準測試中達到人類同等水平的產品,而且顯然非常逼真,以至於微軟不打算向公眾開放。
借助Vall-E 的基礎,新的人工智慧語音工具整合了兩大增強功能,大大提高了效能。分組程式碼建模使微軟能夠更好地組織編解碼器程式碼,從而縮短序列長度,提高推理速度,並幫助克服與長序列建模相關的挑戰。
同時,”重複感知採樣”重新考慮了原始的核採樣過程,以便在解碼時尋找標記重複。微軟表示,這個過程有助於穩定解碼,防止初代Vall-E 出現的無限循環問題。
微軟使用LibriSpeech 和VCTK 資料集對Vall-E 2 進行了測試,結果它都以優異的成績通過了測試。當雷德蒙德聲稱這款人工智慧工具實現了與人類的平等時,他們的意思是Vall-E 2 在穩健性、相似性和自然度方面的表現都優於地面實況樣本。換句話說,該工具可以產生與原始說話者幾乎完全相同的自然語音。
微軟分享了Vall-E 2 的數十個樣本,這些樣本可以在專案摘要頁面上找到。事實上,Vall-E 2 的樣本栩栩如生,與人類說話者毫無區別。這款人工智慧工具甚至還能掌握一些微妙的技巧,例如在句子中強調正確的單字,就像人們在說話時下意識地做的那樣。
微軟表示,Vall-E 2 純粹是研究項目,並補充說它沒有計劃將這項技術融入消費產品或向公眾發布該工具。雷德蒙德還指出,它存在被濫用的潛在風險,例如冒充特定的人或欺騙語音識別。
不過,該公司認為,它可以應用於教育、翻譯、無障礙環境、新聞、自撰內容和聊天機器人等領域。