VALL-E:微軟全新文字轉語音模型可以在三秒鐘內復制任何人的聲音
自從第一個文本到語音(TTS)模型發布以來,研究人員一直在尋找讓計算機系統產生語音的方法,微軟的最新模型VALL-E是在這方面的一個重要進步。VALL-E是一個基於轉換器的TTS模型,只需聽到三秒鐘的聲音樣本就能生成任何聲音的語音。這比以前的模型有很大的改進,以前的模型需要更長的訓練時間才能生成新的聲音。
對於計算機行業來說,VALL-E是一項驚人的技術壯舉,有可能改變我們與數字媒體互動的方式。語音的音調、魅力和風格都在生成的語音中保持不變,這是在使TTS系統聽起來更自然方面邁出的重要一步。
微軟會不會基於這項技術有更多運用目前還不清楚,然而,微軟已經發布了該模型的幾個實例,很明顯,這是TTS技術的一個重大進步。
您可以在這裡收聽範例: