微軟正式推出自定義神經語音技術已被華納與AT&T等企業所採用
Microsoft Azure人工智能認知服務首席技術官黃學東表示,該公司基於“自定義神經語音”技術的文本轉語音(TTS)功能已經正式推出。據悉,自2019年9月開放預覽以來,這項技術已被AT&T、多鄰國、Progressive和瑞士電信等組織用於開發讓客戶感到滿意的品牌語音解決方案。
(來自:Microsoft)
黃學東表示,開發者可使用其音頻數據和深度神經網絡(DNN)打造個性化的語音體驗。不過這項技術的切實突破,體現在能夠高效利用深度學習技術來處理文本,以確保TTS 發音和韻律的準確無誤。
所謂韻律,特指每個音素的音調和持續時間。微軟AI 技術研究人員將之無縫地結合到了一起,以盡可能地再現類似真人的語音。此外,自定義神經語音技術能夠帶來較傳統TTS 語音轉換更自然的效果。
具體說來是,微軟借助了“語音字庫”(Voice Fonts)和多種神經網絡,來確保持續時間和每個因素音調的準確性,讓機器學習模型推導出聽起來更自然的合成語音。
Getting started with Custom Neural Voice(via)
對此感興趣的客戶,只需將其錄製的基礎語音庫上傳到Custom Neural Voice 平台展開模型訓練,然後就能產出自然的合成語音,且期間無需開發者的更多干預。
微軟詳細介紹了包括華納兄弟和AT&T 在內的多家公司的實際用例,比如你可以在達拉斯的AT&T 體驗店與Bugs Bunny 展開互動。
對於語音助手、客服聊天機器人、有聲書朗讀、以及在線學習等應用場景來說,這項技術顯得特別實用。不過為了防止被惡意利用,微軟還是決定對其開放有限的訪問。
除了需要預先獲得批准,微軟還計劃在合成語音中加入數字水印,以便人們可據此分辨聽到的是由Custom Neural Voice 技術創建的合成語音內容。