Google DeepMind的新AI可以為影片產生配樂和對白
Google的人工智慧研究實驗室DeepMind 表示,它正在開發為影片生成配樂的人工智慧技術。 DeepMind 在官方部落格上發表文章稱,它認為V2A(”視訊到音訊”的縮寫)技術是人工智慧生成媒體拼圖中必不可少的一部分。雖然包括DeepMind在內的許多機構已經開發了視訊生成人工智慧模型,但這些模型無法在生成影片時同步生成音效。
DeepMind 寫道:”視頻生成模型正以驚人的速度發展,但目前的許多系統只能生成無聲輸出。V2A技術[可能]成為讓生成的電影栩栩如生的一種有前途的方法”。
DeepMind的V2A技術可以將配樂描述(例如”水母在水下跳動、海洋生物、海洋”)與視頻配對,創造出與視頻中的人物和語氣相匹配的音樂、音效甚至對話,並通過DeepMind的SynthID深度防偽技術打上浮水印。 DeepMind 表示,為V2A 提供動力的人工智慧模型(一種擴散模型)是在聲音和對話文字以及視訊剪輯的組合上訓練出來的。
DeepMind 寫道:”透過對視訊、音訊和附加註釋進行訓練,我們的技術學會了將特定音訊事件與各種視覺場景聯繫起來,同時對註釋或文字中提供的資訊做出回應。”關於訓練數據是否受版權保護,以及資料創建者是否被告知DeepMind 的工作,目前還不得而知。
人工智慧驅動的聲音產生工具並不新鮮。新創公司Stability AI 上週剛發布了一款,ElevenLabs 在5 月也推出了一款。創建視訊音效的模型也不新鮮。微軟的一個專案可以從靜止圖像中生成說話和唱歌視頻,Pika和GenreX等平台已經訓練出模型,可以獲取視頻並猜測特定場景中適合的音樂或效果。
但DeepMind 聲稱,其V2A 技術的獨特之處在於,它可以理解影片中的原始像素,並自動將生成的聲音與影片同步,還可以選擇不加說明。
V2A 並不完美,DeepMind 也承認這一點。由於底層模型並沒有在大量存在偽像或扭曲的影片上進行過訓練,因此它並不能為這些影片產生特別高品質的音訊。基於這些原因,同時也為了防止濫用,DeepMind 表示不會在短期內(如果有的話)向大眾發布這項技術。
DeepMind 寫道:”為了確保我們的V2A 技術能夠對創意社區產生積極影響,我們正在收集來自頂尖創作者和電影製作人的各種觀點和見解,並利用這些寶貴的反饋意見來指導我們正在進行的研究和開發工作。
DeepMind 的V2A 技術對於檔案管理員和處理歷史片段的人來說是一種特別有用的工具。但是,按照這種想法進行的生成式人工智慧也有可能顛覆電影和電視產業。要確保生成式媒體工具不會消除工作崗位,或者說,消除整個職業,就需要一些強而有力的勞動保護措施。