Sora勁敵Meta最強沉浸式AI媒體模型來了
OpenAI的Sora迎來勁敵,Meta推出號稱最先進的媒體基礎模型Movie Gen。 Meta稱,Movie Gen是公司“針對媒體的突破性生成式AI研究”,它囊括了圖像、視頻和音頻等模態,用戶只需輸入文本,就可以製作自定義的視頻和聲音、編輯現有視頻,以及將個人圖像轉換為獨特的視頻。 Movie Gen執行這些任務的表現在人類評估中由於業內類似模型。
Meta介紹,Movie Gen是“最先進、沉浸式效果最佳的故事講述模型套件”,綜合了該公司第一波生成式AI媒體研究的Make-A-Scene 系列模型,即可創建圖像、音頻、視頻和3D 動畫的模型,以及隨著擴散模型出現而針對Llama Image 基礎模型進行的第二波研究模型,即可實現更高品質圖像和視訊生成以及圖像編輯的模型。
文生影片最長16秒130億參數音訊產生模型人工評測影片產生對Sora淨勝率8.2
Meta概括,Movie Gen 有四種功能:影片產生、個人化影片產生、精確影片編輯、音訊產生。
對於影片生成,Meta介紹,使用者只要提供一個文字的提示詞,Movie Gen就可以利用針對文字轉圖像和文字轉影片進行了優化的聯合模型,創建高清的高品質圖像和影片。 Movie Gen的影片模型有300億參數,這個轉換模型能以每秒16幀的速度產生最長16秒的影片。
Meta稱,發現這些模型可以推理物體的運動、拍攝主體與物體之間的相互作用,以及相機的運動,並且可以學習各種概念了解有哪些合理的運動,因此,它們成為同類中最先進的模型。在介紹該功能時,Meta展示了多個10秒長度的視訊短片,包括一隻像萌翻網絡的彈跳豬「Moo Deng」那樣的小河馬遊來游去。
單從生成影片的最大長度看,Movie Gen還不敵今年2月OpenAI發布的Sora。 Sora令業界震撼的一點是,可以創建長達60秒的文生視頻,。不過,相較於Meta去年11月官方宣布的影片模型Emu Video,Movie Gen確實進步不小。 Emu Video只能以每秒16幀的速度產生最長4秒的影片。
除了直接文生視頻,Movie Gen還有出色的個人化視頻製作能力。 Meta介紹,其擴展了前述基礎模型,支援生成個人化影片。使用者可以提供某個人的圖像,配合文字的提示詞,讓Move Gen生成的影片包含參考圖像中的人物,以及符合文字提示的視覺細節。 Meta稱,在創建保留人類身份和動作的個人化影片方面,其模型取得了最先進的成果。
Meta展示的一個影片顯示,用戶可以提供一個女孩的照片,輸入文字“一名身穿粉色馬甲的女DJ播放唱片,她身旁有一隻獵豹”,然後就生成了以照片中女孩形象的DJ打碟,以及一隻獵豹陪伴。
在精確影片編輯方面,Meta稱,Movie Gen採用了同一基礎模型的編輯變體模型,在用戶輸入影片和文字提示詞後,精確執行任務,產生所需的輸出。它將影片生成與高級圖像編輯相結合,執行局部編輯,例如添加、刪除或替換元素,以及諸如背景或樣式修改的全域變更。與需要專業技能或缺乏生成精確度的傳統工具不同,Movie Gen 保留了原始內容,僅針對相關像素編輯。
Meta提供的例子之一是,用戶輸入,讓企鵝穿上有英國女王維多利亞在位時期服飾風格的服裝,Movie Gen生成的企鵝穿上了帶蕾絲的紅色女裙。
對於音頻生成,Meta稱,訓練了一個130億參數的音頻生成模型,該模型可以接受視頻和可選的文本提示詞,生成長達45 秒的高質量高保真音頻,包括環境音、擬聲音效(Foley)和樂器背景音樂,所有這些都與視頻內容同步。此外,Meta引入了一種音頻擴展技術,可以為任意長度的視頻生成連貫的音頻,在音頻質量、視頻到音頻對齊和文本到音頻對齊方面總體上實現了最先進的性能。
Meta提供的一個例子是,生成在吉他音樂的伴奏下,全地形車(ATV)引擎轟鳴加速的聲音,還有一個例子是,管弦樂聲中有樹葉沙沙作響和樹枝折斷的聲音。
Meta也展示了針對以上四種能力進行的A/B對比測試人工評估結果,下圖顯示的淨正值勝率代表,相較於Sora等競品模型,人類評估者更青睞Movie Gen模型產生的結果。在直接產生影片這個功能方面,Movie Gen相比Sora的淨勝率達到8.2。
基於授權和公開可用資料訓練未明確何時發布 祖克柏稱明年上線Instagram
Movie Gen 是基於哪些資訊進行訓練的? Meta 的聲明沒有說明具體細節,只是說:“我們基於授權和公開可用的數據集對這些模型進行了訓練。”
有評論指出,對生成式AI 工具而言,訓練資料的來源以及從網路上抓取哪些資料合理仍然是有爭議的問題,而且公眾很少知道使用哪些文字、視訊或音訊片段創建了任何大模型。
還有評論稱,Meta說訓練用的數據集是“專有/商業敏感”的,未提供細節,那麼只能猜測,數據包括很多Instagram 和Facebook 平台的視頻,加上一些Meta合作夥伴的內容,以及其他很多未被充分保護的內容、也就是所謂的「公開可用」內容。
對於發佈時間,Meta本週五並未明確Movie Gen何時面向大眾推出,只是含糊地說「可能未來發布」。今年2月OpenAI官員宣Sora後迄今還未真正對外開放使用,也並未透露任何計畫將要發布的日期。
不過,Meta CEO祖克柏稱,Movie Gen明年會上線Meta旗下的社群媒體Instagram。他在個人Instagram帳號發布了一段Movie Gen生成的視頻,顯示他在用腿部推舉機,隨著他開始鍛煉,背景發生了變化。先是顯示,他在一家霓虹燈照耀的未來風格健身房鍛煉,然後變為,他穿著角斗士盔甲鍛煉,接著變為他推動一台燃燒的純金機器,最後變為,他用腿部推舉一盒雞塊,周圍是一片薯條。
祖克柏配上文字稱,Meta新的Movie Gen AI 模型可以製作和編輯視頻,每天都是煉腿的日子。該模型將於明年登陸Instagram。
在社群媒體X,Meta官宣並示範Movie Gen的貼文下面,一些點讚高的留言顯示,網友已經在催促Meta正式發布該模型,有網友問,不知道大家有沒有機會來試試它。