Meta版Sora深夜橫空出世:小札放出16秒高清大片92頁論文曝光技術細節
Meta版Sora,就在剛剛驚艷來襲。 Movie Gen可產生1080p、16秒、每秒16幀的高清長視頻,還能產生音效、編輯視頻、上傳圖像生成個人化視頻。連Meta還放了92頁論文,模型架構、訓練細節一併公開,乾貨滿滿!
毫無預警地,Meta版Sora-Movie Gen,就在剛剛搶先上線了!
Meta將其稱為「迄今最先進的媒體基礎模型」。
全新上線的大殺器Movie Gen Video,是一個30B參數的Transformer模型,可以從單一文字提示,產生高品質的高清影像和視頻,影片為1080P、16秒、每秒16幀。
一同推出的還有Movie Gen Audio。這是一個13B參數的Transformer模型。透過視訊輸入和文字提示,它就可以可控性生成和視訊同步的高保真音頻,時長最長45秒。
最驚人的是,這次Meta一並連論文都發布了。
論文中,詳細介紹了Movie Gen的架構、訓練方法和實驗結果。
論文地址:https://ai.meta.com/static-resource/movie-gen-research-paper/
從論文可以看出,Movie Gen Video沿襲了Transformer的設計,尤其借鏡了Llama 3。而研究人員引入的「流匹配」(Flow Matching),讓影片在精準度和細節表現上,都優於擴散模型。
稍微遺憾的是,這次Meta發的也是「期貨」,產品預計明年才正式對外開放。
不出意外的,圍觀群眾給予亮眼點評:「Meta居然搶著OpenAI之前發布了Sora,呵呵」。
就在昨天,Sora負責人Tim Brooks選擇離職,Meta這個時間點放出Movie Gen,也真是夠札心的。
而HuggingFace工程師也直接貼出Meta開源主頁,線上催更模型開源。
也有人期待,Meta版Sora的這次發布,或許或激出其他家的下一個王炸級產品。
一鍵影片生成,追趕Sora
憑藉開源Movie Gen,Meta正式進軍AI視訊領域。
可以說,Movie Gen在編輯、個人化功能方面,站在了一個新階段。而且,最令人印象深刻的,便是把一張個人照,轉換成個人化影片。
小扎在社交平台上以身試法,將自己照片作為輸入,Movie Gen為其配上了健身的視頻。
文字生成視頻
現在,只要使用簡單的文字輸入,就能產生自訂的影片了。
從官網放出的Demo可以看出,Meta所言不虛,Movie Gen的確可以說「為沉浸式AI內容」樹立了新標準。
更矚目的是,Movie Gen可以創造出不同寬高比的高清長影片。在業界,這屬於首次!
這部「雷聲大作,伴隨著管弦樂曲」的視頻,對於山石地形和電閃雷鳴的刻畫驚人的逼真,配樂更是恢弘激昂。
一個小女孩拿著風箏跑過海灘,彷彿電影中的場景。
戴著粉紅色太陽眼鏡躺在甜甜圈游泳圈上的樹懶,影片中光影和水波都很自然。
在冒著熱氣的溫泉中玩著小木船的白毛紅臉猴,無論是熱氣、水面、猴子毛髮還是水中怪石,都看不出破綻。
在海邊耍著火圈的男人,影片完全符合prompt的要求,鏡頭、光影和氛圍的刻畫,已經達到了大片級畫質。
各種超現實的場景,Movie Gen都能完美生成,例如這隻毛茸茸的衝浪無尾熊。
文字編輯視頻
而只要使用文字輸入,就可以編輯現有影片。
Movie Gen可以支援非常精確的影片編輯,無論是樣式、過渡,還是精細編輯。
透過文字輸入,就能讓小女孩向空中放飛的燈籠,變成氣泡。
在沙地上跑步的男子,手中可以加上藍色絨球,周圍環境可以換成仙人掌沙漠,甚至可以讓男子換上一套恐龍套裝。
在觀眾席上觀影的一對男女,可以讓他們戴上3D眼鏡、背景換成遊樂園,甚至加上下雨的特效。
南極冰原上的企鵝可以穿上維多利亞式的衣服,背景可以加上遮陽傘和沙灘床,甚至整幅畫面都能變成鉛筆素描畫。
個性化影片
並且,Movie Gen還有一個Sora沒有的亮點——個人化影片!
只要上傳我們想要的圖像,它就可以由此生成個性化視頻,保留人物的身份和動作。
輸入這個女孩的照片,給出prompt,就能讓她在南瓜地上戴著圍巾喝咖啡。
讓這名男子化身科學家,穿上實驗服開始做實驗。
一張照片,就能產生自己和愛犬在露台上的自拍影片。
甚至讓自己在西部世界小鎮化身騎馬的女牛仔,身後就是洛磯山脈。一秒走進大片不是夢!
音效和配樂
Movie Gen還可以將影片、文字作為輸入,並為影片產生音訊。
它可讓你創建和擴展視訊音效、背景音樂或整個配樂。
例如,下面企鵝戲水的畫面中,配上了AI生成的優美的管弦樂曲。
文字輸入:A beautiful orchestral piece that evokes a sense of wonder
AI產生的煙火音效,也是如此逼真。
文字輸入:哨聲響起,隨後是劇烈的爆炸和巨大的劈啪聲。
傾瀉而下的瀑布和雨水,站在高處遙遠遠方頓感壯觀。
文字輸入:雨傾盆而下,打在懸崖和人身上,背景音樂在播放。
一條蛇在草地裡緩慢前進,給人一種危機四伏的趕腳。
文字輸入:樹葉沙沙作響,樹枝折斷,伴隨著管弦樂曲目。
AI生成的背景音,很有山地摩托摩托競賽那味兒了。
文字輸入:ATV engine roars and accelerates, with guitar music.
還有溜滑板,配上動作,給予不同節奏的音效。
文字輸入:輪子旋轉,滑板落在混凝土上時發出砰的一聲。
92頁技術報告,同用Llama 3架構
Movie Gen發布同時,Meta也祭了92頁的技術報告。值得一提的是,這次團隊也被命名為「Movie Gen team」。
Pytorch之父Soumith Chintala表示,其中許多細節將會推動AI影片領域的發展。
接下來,一起看看Movie Gen得以實現的技術要點吧。
研究人員表示,Movie Gen主要是基於兩種基礎模型打造的,一個是Movie Gen Video,另一個是Movie Gen Audio。
電影生成視頻
Movie Gen Video參數有300億,基礎架構細節如下圖。
它能夠聯合文本到圖像和文本到視頻的生成。
Movie Gen Video可以遵循文字提示,產生長達16秒、16幀每秒高清影片。
它也是透過預訓練微調完成,在骨幹網路架構上,它繼續沿用了Transformer的設計,尤其是藉鏡的Llama3的設計。
而且,該模型具有強大的適應性,可產生不同縱橫比、解析度和時長的高品質影像和影片。
預訓練階段,在大約1億個影片和10億張影像上進行了聯合預訓練。
它是透過“看”視頻,來學習視覺世界。
實驗結果發現,Movie Gen Video模型能夠理解物理世界——
可以推理物體運動、主客體互動、幾何關係、相機運動、物理規律,以及各種概念的合理運動。
在微調階段,研究人員精選了一部分視頻,對模型在美學、運動品質方面完成了微調。
為了提高訓練、推理效率,研究人員在時空壓縮的潛在空間(Latent Space)中進行產生。
為此,他們訓練了一個單一的時間自編碼器(TAE),用於將RGB影像和視訊映射到潛在空間。
然後,再使用預訓練文字編碼器,來編碼使用者提供的文字提示,並獲得文字提示嵌入,這些嵌入用作模型的條件。
流匹配,擊敗擴散損失
值得一提的是,研究人員還引入「流匹配」(Flow Matching)來訓練生成模型,這使得影片生成效果在精度、細節表現上,都優於擴散模型。
「流匹配」是一種新興的生成模型訓練方法,其核心思想是-直接學習樣本從初始雜訊狀態轉換到目標資料分佈的過程。
而且,模型只需透過估計如何在每個時間步中演化樣本,即可產生高品質的結果。
與擴散模型相比,「流匹配」訓練效率更高、計算成本更低、並且在時間維度保持連續性和一致性。
有網友對此總結道,在品質和文字對齊上,人類評估都強烈傾向於流匹配,而不是擴散。
此外,Movie Gen Video在技術上也引入了許多創新:
他們引入了創新的位置編碼方法——「因子化可學習編碼」,能夠獨立對高度、寬度、時間三個維度進行編碼,然後將其相加。
基於這種靈活設計,讓模型不僅能適應不同寬高比,還能處理任意長度的影片。
另外,為了解決模型推理效率問題,研究人員採用了「線性-二次時間步長」的策略。
如下圖所示,僅需50步,就能達到接近1000步取樣效果,大幅提升了推理速度。
同時,Movie Gen Video也採用了巧妙的「時間平鋪」方法,進一步提升生成效率。
具體來說,這種方法將輸入的視頻,在時間維度上切分成多個小片段,然後對每個片對獨立進行編碼和解碼,最後再將所有處理好的片段,重新拼接成完成視頻。
这种分而治之策略,不仅显著降低内存需求,还提高了整体推理效率。
為了確保最終生成的視訊質量,團隊在解碼階段採用了精心設計的重疊和混合技術。
最後微調得到的Movie Gen Video模型,與目前最先進的模型相比,大幅超越LuamaLabs的Dream Machine,還有Gen-3。
它僅小幅超越了Sora、Kling 1.5。
如下是,產生影像品質的對比。總的來說,Movie Gen Video在畫面一致性、品質等方面,均取得了最優表現。
提示中袋鼠走路細節,在Sora中到最後並沒有展現。
電影生成音訊
音訊模型參數共有130億,能夠產生48kHz的高品質電影音效和音樂。
而且,這些AI音頻與輸入視頻,實現同步。
值得一提的是,Movie Gen Audio可以原生處理不同長度音訊產生。
這個過程是透過TAE完成解碼與編碼。
而且,透過音訊延伸技術,能夠為長達幾分鐘視頻,製作出連貫長音頻。
研究人員在大約100萬小時音訊上,對模型進行了預訓練。
所得到的預訓練模型,不僅學會了物理關聯,也學會了視覺世界和音訊世界之間的心理關聯。
另外,模型還可以生成,與視覺場景相符的非畫面「內環境」聲音,即便是聲音來源沒有出現在畫面中。
最後,模型還可以產生支持情緒,並與視覺場景動作相符的非畫面內音樂。
而且,它還能與專業地混合音效和背景音樂。
透過評估,與目前先進的音訊模型ElevenLabs等相比,Movie Gen Audio結果如下所示。