VALL-E：微軟全新文字轉語音模型可以在三秒鐘內復制任何人的聲音

2023-01-10 Comments 0 Comment

自從第一個文本到語音（TTS）模型發布以來，研究人員一直在尋找讓計算機系統產生語音的方法，微軟的最新模型VALL-E是在這方面的一個重要進步。VALL-E是一個基於轉換器的TTS模型，只需聽到三秒鐘的聲音樣本就能生成任何聲音的語音。這比以前的模型有很大的改進，以前的模型需要更長的訓練時間才能生成新的聲音。

對於計算機行業來說，VALL-E是一項驚人的技術壯舉，有可能改變我們與數字媒體互動的方式。語音的音調、魅力和風格都在生成的語音中保持不變，這是在使TTS系統聽起來更自然方面邁出的重要一步。

微軟會不會基於這項技術有更多運用目前還不清楚，然而，微軟已經發布了該模型的幾個實例，很明顯，這是TTS技術的一個重大進步。

您可以在這裡收聽範例：

VALL-E: Microsoft’s new zero-shot text-to-speech model can duplicate everyone’s voice in three seconds

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

WONGCW 網誌

記錄生活經驗與點滴

VALL-E：微軟全新文字轉語音模型可以在三秒鐘內復制任何人的聲音

2023-01-10 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆