NVIDIA的最新技術使人工智慧的聲音更具表現力和真實感
亞馬遜的Alexa、Google助手和其他人工智慧助手的聲音遠遠領先於老式的GPS設備,但它們仍然缺乏節奏、音調和聽上去讓人感覺真實的品質,NVIDIA公司在Interspeech 2021會議上宣佈,該公司已經公佈了新的技術和工具,可以通過讓你用自己的聲音訓練AI系統來捕捉這些自然的語音品質。
為了改進其人工智慧語音合成,NVIDIA的文本-語音研究團隊開發了一個名為RAD-TTS的模型,這是NAB廣播大會上開發最逼真化身的比賽的獲勝作品。 該系統允許個人用自己的聲音訓練文字轉語音模型,包括節奏、音調、音色等等。
RAD-TTS的另一個特點是語音轉換,它可以讓使用者用另一個人的聲音來傳遞一個說話者的話語。 該介面可以對合成的聲音的音調、持續時間和能量進行精細的、幀級的控制。
利用這項技術,NVIDIA的研究人員為自己的《我是人工智慧》系列視頻創造了更多聽起來像對話的語音解說,使用的是合成的聲音而不是人的聲音。 其目的是讓解說詞與視頻的語氣和風格相匹配,這是迄今為止許多人工智慧解說視頻中沒有做到的。 結果仍然有點像機器人,但比我聽過的任何人工智慧解說都好。
“有了這個介面,我們的視頻製作人可以錄下自己閱讀視頻腳本的過程,然後用人工智慧模型將他的語音轉換為女解說員的聲音。” NVIDIA公司寫道:「利用這一基線旁白,製作人可以像配音演員一樣指揮人工智慧– 調整合成的語音以強調特定的詞語,並修改旁白的節奏以更好地表達視頻的基調。 “
NVIDIA公司正在分發這項研究的一部分–當然是為了在NVIDIAGPU上有效運行而進行的優化–通過用於GPU加速的對話式人工智慧的NVIDIA NeMo Python工具包(可在該公司的容器和其他軟體的NGC中心獲得),向任何想要嘗試的人開放原始程式碼。 其中幾個模型是在NVIDIA DGX系統上用數萬小時的音訊數據訓練出來的。 開發人員可以針對他們的使用方式對任何模型進行微調,利用NVIDIA Tensor Core GPU上的混合精度計算加快訓練速度。