微軟正式推出自定義神經語音技術已被華納與AT&T等企業所採用

Microsoft Azure人工智能認知服務首席技術官黃學東表示，該公司基於“自定義神經語音”技術的文本轉語音（TTS）功能已經正式推出。據悉，自2019年9月開放預覽以來，這項技術已被AT&T、多鄰國、Progressive和瑞士電信等組織用於開發讓客戶感到滿意的品牌語音解決方案。

（來自：Microsoft）

黃學東表示，開發者可使用其音頻數據和深度神經網絡（DNN）打造個性化的語音體驗。不過這項技術的切實突破，體現在能夠高效利用深度學習技術來處理文本，以確保TTS 發音和韻律的準確無誤。

所謂韻律，特指每個音素的音調和持續時間。微軟AI 技術研究人員將之無縫地結合到了一起，以盡可能地再現類似真人的語音。此外，自定義神經語音技術能夠帶來較傳統TTS 語音轉換更自然的效果。

具體說來是，微軟借助了“語音字庫”（Voice Fonts）和多種神經網絡，來確保持續時間和每個因素音調的準確性，讓機器學習模型推導出聽起來更自然的合成語音。

Getting started with Custom Neural Voice（via）

對此感興趣的客戶，只需將其錄製的基礎語音庫上傳到Custom Neural Voice 平台展開模型訓練，然後就能產出自然的合成語音，且期間無需開發者的更多干預。

微軟詳細介紹了包括華納兄弟和AT&T 在內的多家公司的實際用例，比如你可以在達拉斯的AT&T 體驗店與Bugs Bunny 展開互動。

對於語音助手、客服聊天機器人、有聲書朗讀、以及在線學習等應用場景來說，這項技術顯得特別實用。不過為了防止被惡意利用，微軟還是決定對其開放有限的訪問。

除了需要預先獲得批准，微軟還計劃在合成語音中加入數字水印，以便人們可據此分辨聽到的是由Custom Neural Voice 技術創建的合成語音內容。

WONGCW 網誌