Stability AI發布免費音訊生成工具可創作AI歌曲
著名大模型開源平台Stability AI發布音訊生成模型Stable Audio 2.0,現在允許用戶上傳自己的音訊樣本,然後透過提示轉換音訊樣本並免費創造AI生成的歌曲。 Stable Audio的第一版在2023年9月發佈時,僅為一些付費用戶提供最多90秒的音頻,這意味著用戶只能製作短音頻片段來實驗。
而Stable Audio 2.0提供了完整的三分鐘音訊片段,這個長度的歌曲大多適合電台播放,而所有上傳的音訊必須是無版權的。
據了解,與OpenAI的音訊產生模型Voice Engine只向一小部分用戶開放不同,Stability AI透過其網站免費向公眾提供Stable Audio,未來很快就會提供API介面。
![](https://i0.wp.com/n.sinaimg.cn/spider20240403/176/w640h336/20240403/c3a7-1a3ec904accff395aca27dafcf2508c8.jpg?w=640&ssl=1)
Stability AI表示,Stable Audio 2.0與其早期版本的一個主要區別在於,它能夠創建與真實歌曲相似的歌曲結構,包括有序幕、進展和尾聲。
不過,已經試玩Stable Audio 2.0的媒體表示,這個等級的AI歌曲距離幫助用戶用音樂表達想法,差距依然比較大。例如,有用戶用「帶有美國風格的民謠流行歌曲」(美國鄉村音樂)作為提示,Stable Audio生成的歌曲在某些部分聽起來有山谷清晨的氛圍,並且疑似加入了人聲。
理論上,Stable Audio 2.0的新功能允許使用者調整生成的AI音訊作品,使作品更符合使用者的聽歌風格。例如可以調整遵循提示程度,或設定轉換所上傳音訊的哪一部分,使用者也可以加入像人群的吼聲或鍵盤敲擊等音效。
然而,這種AI歌曲最大的問題在於,讓人感覺毫無靈魂。但這並不令人感到驚訝,因為這和其他大廠的AI音響問題一樣。例如,如Meta和Google也一直在嘗試AI音訊生成,但兩家公司都沒有公開發布他們的模型,因為他們仍在收集開發者的回饋,來解決AI歌曲無靈魂的問題。
Stability AI在新聞稿中說,Stable Audio是在AudioSparx的資料上訓練的,後者擁有超過800,000個音訊檔案的庫。
不過,這些音頻可能出現版權糾紛。 Stability AI表示,作品被納入AudioSparx的藝術家可以選擇退出,以避免他們的作品用於訓練模型。其實,使用版權音訊訓練模型是Stability AI的前音訊副總裁Ed Newton-Rex在Stable Audio發布後不久就離開公司的原因之一。對於2.0版本,Stability AI說它與Audible Magic合作,使用其內容識別技術來追蹤和阻止版權音訊進入平台。
總之,Stable Audio 2.0的確讓AI歌曲比之前更像真正的歌曲,但還是沒有完全達到這個目標。媒體表示,如果Stable Audio 2.0模型堅持添加某種人聲,也許下一個版本的AI音訊作品會出現更能令人分辨的語言。