Riffusion:基於AI的音樂生成讓貝多芬與Radiohead結合
用一種”新的”機器學習算法可以適應圖像生成,從而創造、插值和循環新的音樂片段和流派。Seth Forsgren和Hayk Martiros將穩定擴散(SD)算法適用於音樂,結果創造了一種新的奇怪的”音樂機器”。Riffusion的工作原理與SD相同,將文本提示變成新的、由人工智能生成的內容。主要的區別是,該算法經過專門的聲波訓練,可以以視覺形式描述音樂和音頻。
正如Riffusion網站所解釋的那樣,聲波圖(或音頻頻率的頻譜圖)是表示聲音片段的頻率內容的一種視覺方式。X軸代表時間,而Y軸代表頻率。每個像素的顏色給出了音頻在其行和列給出的頻率和時間的振幅。
Riffusion適應了穩定擴散視覺算法的V1.5版本,”沒有任何修改”,只是進行了一些微調,以更好地處理與文本配對的聲譜/音頻譜圖的圖像。音頻處理髮生在模型的下游,而該算法也可以通過改變種子來生成提示的無限變化。
在生成新的聲譜圖後,Riffusion用Torchaudio將圖像變成聲音。人工智能已經接受了描繪聲音、歌曲或流派的頻譜圖的訓練,因此它可以根據各種文本提示生成新的聲音片段。例如,像”貝多芬與Radiohead”這樣的融合產物,這是一個很好的例子,說明另一個世界或不可思議的機器學習算法可以表現得很好。
在設計完理論後,Forsgren和Martiros將其全部整合到一個互動的網絡應用中,用戶可以在其中試驗人工智能。Riffusion接受文本提示,並”實時無限地生成插值內容,同時將頻譜圖的時間線以3D形式可視化”。音頻從一個片段平滑地過渡到另一個片段;如果沒有新的提示,該應用程序將在同一提示的不同種子之間插值。
Riffusion建立在許多開源項目之上,即Next.js、React、Typescript、three.js、Tailwind和Vercel。該應用程序的代碼也有自己的Github倉庫。
Riffusion遠不是第一個生成音頻的人工智能,它是ML復興的另一個後代,它已經啟發了Dance Diffusion、OpenAI的Jukebox、Soundraw等的發展,當然這些都不會是最後一個。
了解更多: