阿里公佈新語音合成技術錄音10分鐘定制AI語音

2019-07-10 Comments 0 Comment

阿里巴巴發布新一代語音合成技術KAN-TTS，稱可大幅提高合成語音與真人發聲的相似度，並將語音合成定製成本降低10倍以上。該技術由達摩院機器智能實驗室自主研發。阿里方面稱，當前業界商用系統的合成語音與原始音頻錄音的接近程度通常在85%到90%之間，而基於KAN-TTS技術的合成語音可將該數據提高到97%以上。

KAN-TTS的基本框圖

構建多發音人語音合成系統的方式

多發音人模型實際訓練過程

據悉，KAN-TTS由達摩院機器智能實驗室自主研發，深度融合了目前主流的端到端TTS技術和傳統TTS技術，從多個方面改進了語音合成。傳統語音合成定制需要10小時以上的數據錄製和標註，對錄音人和錄音環境要求很高。從啟動定製到最終交付，項目週期長成本高。

阿里利用Multi-Speaker Model與Speaker-aware Advanced Transfer Learning相結合的方法，將語音合成定製成本降低10倍以上，週期壓縮3倍以上。也就是說，用1小時有效錄音數據和不到兩個月製作週期，就能完成一次標準TTS定制。

此外，這使得普通用戶定制“AI聲音”的門檻更低。只需手機錄音十分鐘，就能獲得與錄製聲音高度相似的合成語音。

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。