Google研發的AI模型可以從文本甚至圖像中生成高保真音樂
來自Google的研究人員發表了一篇論文,稱他們創建了一個從文本描述中生成高保真音樂的模型。它被稱為MusicLM,根據人工智能科學家Keunwoo Choi的說法,這個模型的整體結構是基於其他模型的,它結合了MuLan + AudioLM和MuLan + w2b-Bert + Soundstream。
Choi解釋了一下這些模型各自的工作原理:
MuLan是一個文本-音樂聯合嵌入模型,支持對比性訓練和來自YouTube的44M音樂音頻-文本描述對。
AudioLM使用一個來自語音預訓練模型的中間層來獲取語義信息。
w2v-BERT是一個來自Transformers的雙向編碼器表表達法,這是一個最初用於語音的深度學習工具,這次用於音頻。
SoundStream是一個神經音頻編解碼器。
Google將所有這些結合起來,產生了從文本中生成音樂的AI模型,以下是研究人員對MusicLM的解釋。
MusicLM是一個從文本描述中生成高保真音樂的模型,如”平靜的小提琴旋律伴著扭曲的吉他旋律”。MusicLM將有條件的音樂生成過程作為一個層次化的序列到序列的建模任務,它生成的音樂頻率為2 4K Hz,時長可以達到幾分鐘。實驗表明,MusicLM在音頻質量和對文本描述的遵守方面都優於以前的系統。此外,還可以證明MusicLM可以以文本和旋律為條件,因為它可以根據文本說明中描述的風格來轉換口哨和哼唱的旋律。為了支持未來的研究,我們公開發布了MusicCaps,這是一個由5500首音樂-文本對組成的數據集,其中有人類專家提供的豐富文本描述。
相對而言,想想ChatGPT能夠完成的事情就很有意思。艱難的考試,分析複雜的代碼,為國會寫決議,甚至創造詩歌、音樂歌詞等。在這種情況下,MusicLM更是超越了前者,把文字意圖、一個故事甚至一幅繪畫轉化為歌曲。看到薩爾瓦多-達利的《記憶的持久性》被轉化為旋律,這很吸引人。
不幸的是,該公司並不打算向公眾發布這種模型,但您仍然可以在這裡看看-和聽聽-這個人工智能模型如何從文本中生成音樂: