Stability AI 發布用於生成聲音和歌曲的開放式AI模型
人工智慧藝術生成器Stable Diffusion 背後的新創公司Stability AI 發布了一個用於生成聲音和歌曲的開放式人工智慧模型,並聲稱該模型完全是在免版稅錄音基礎上訓練出來的。該模型名為”穩定的音頻開放”,它採用文字描述(例如,”在經過處理的錄音室中演奏的搖滾節拍,在原聲套件上打鼓”),並輸出長度不超過47 秒的錄音。
該模型使用來自免費音樂庫FreeSound 和免費音樂檔案館的約486,000 個樣本進行訓練。
Stability AI 公司稱,該模型可用於為視頻、電影和電視節目創建鼓點、樂器旋律、環境噪音和”製作元素”,也可用於”編輯”現有歌曲或將一首歌的風格(如流暢爵士樂)應用到另一首歌。
Stability AI公司在其公司部落格上發表的一篇文章中寫道:「此次開源發布的一個主要好處是,用戶可以根據自己的自訂音訊資料對模型進行微調。例如,鼓手可以在自己的鼓聲錄音樣本上進行微調,產生新的節拍。
不過,Stable Audio Open 也有其限制。它不能產生完整的歌曲、旋律或人聲,至少不能產生好的歌曲、旋律或人聲。 Stability AI 表示,它並沒有為此進行最佳化,並建議希望獲得這些功能的用戶選擇該公司的高級Stable Audio 服務。
Stable Audio Open 也不能用於商業用途,其服務條款禁止這樣做。此外,它在不同音樂風格和文化或英語以外的語言描述中的表現也不盡相同,Stability AI 將這些偏差歸咎於訓練資料。
“資料來源可能缺乏多樣性,所有文化在資料集中都不具有同等代表性,”Stability AI 公司在對模型的描述中寫道。 “模型產生的樣本將反映訓練資料的偏差”。
穩定人工智慧公司(Stability AI)長期以來一直在努力扭轉業務頹勢,最近,該公司負責生成音頻的副總裁埃德-牛頓-雷克斯(Ed Newton-Rex)因不同意該公司關於在受版權保護的作品上訓練生成人工智慧模型構成”合理使用”的立場而辭職,從而引發爭議。 Stable Audio Open 似乎試圖扭轉這種說法,同時不著痕跡地宣傳Stability AI 的付費產品。
隨著包括Stability 音樂生成器在內的音樂生成器越來越受歡迎,版權–以及一些生成器創建者可能濫用版權的方式–正成為人們關注的焦點。
5 月,代表比利-喬爾(Billy Joel)、Doja Cat 和Lil Nas X 等藝術家的索尼音樂公司致函700 家人工智慧公司,警告不要”未經授權使用”其內容來訓練音頻生成器。今年3 月,美國田納西州簽署了第一部旨在遏制人工智慧在音樂領域濫用的法律。