Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

Meta版Sora深夜橫空出世:小札放出16秒高清大片92頁論文曝光技術細節

Meta版Sora深夜橫空出世:小札放出16秒高清大片92頁論文曝光技術細節

2024-10-07 Comments 0 Comment

Meta版Sora,就在剛剛驚艷來襲。 Movie Gen可產生1080p、16秒、每秒16幀的高清長視頻,還能產生音效、編輯視頻、上傳圖像生成個人化視頻。連Meta還放了92頁論文,模型架構、訓練細節一併公開,乾貨滿滿!

毫無預警地,Meta版Sora-Movie Gen,就在剛剛搶先上線了!

Meta將其稱為「迄今最先進的媒體基礎模型」。

全新上線的大殺器Movie Gen Video,是一個30B參數的Transformer模型,可以從單一文字提示,產生高品質的高清影像和視頻,影片為1080P、16秒、每秒16幀。

一同推出的還有Movie Gen Audio。這是一個13B參數的Transformer模型。透過視訊輸入和文字提示,它就可以可控性生成和視訊同步的高保真音頻,時長最長45秒。

最驚人的是,這次Meta一並連論文都發布了。

論文中,詳細介紹了Movie Gen的架構、訓練方法和實驗結果。

論文地址:https://ai.meta.com/static-resource/movie-gen-research-paper/

從論文可以看出,Movie Gen Video沿襲了Transformer的設計,尤其借鏡了Llama 3。而研究人員引入的「流匹配」(Flow Matching),讓影片在精準度和細節表現上,都優於擴散模型。

稍微遺憾的是,這次Meta發的也是「期貨」,產品預計明年才正式對外開放。

不出意外的,圍觀群眾給予亮眼點評:「Meta居然搶著OpenAI之前發布了Sora,呵呵」。

就在昨天,Sora負責人Tim Brooks選擇離職,Meta這個時間點放出Movie Gen,也真是夠札心的。

而HuggingFace工程師也直接貼出Meta開源主頁,線上催更模型開源。

也有人期待,Meta版Sora的這次發布,或許或激出其他家的下一個王炸級產品。

一鍵影片生成,追趕Sora

憑藉開源Movie Gen,Meta正式進軍AI視訊領域。

可以說,Movie Gen在編輯、個人化功能方面,站在了一個新階段。而且,最令人印象深刻的,便是把一張個人照,轉換成個人化影片。

小扎在社交平台上以身試法,將自己照片作為輸入,Movie Gen為其配上了健身的視頻。

文字生成視頻

現在,只要使用簡單的文字輸入,就能產生自訂的影片了。

從官網放出的Demo可以看出,Meta所言不虛,Movie Gen的確可以說「為沉浸式AI內容」樹立了新標準。

更矚目的是,Movie Gen可以創造出不同寬高比的高清長影片。在業界,這屬於首次!

這部「雷聲大作,伴隨著管弦樂曲」的視頻,對於山石地形和電閃雷鳴的刻畫驚人的逼真,配樂更是恢弘激昂。

一個小女孩拿著風箏跑過海灘,彷彿電影中的場景。

戴著粉紅色太陽眼鏡躺在甜甜圈游泳圈上的樹懶,影片中光影和水波都很自然。

在冒著熱氣的溫泉中玩著小木船的白毛紅臉猴,無論是熱氣、水面、猴子毛髮還是水中怪石,都看不出破綻。

在海邊耍著火圈的男人,影片完全符合prompt的要求,鏡頭、光影和氛圍的刻畫,已經達到了大片級畫質。

各種超現實的場景,Movie Gen都能完美生成,例如這隻毛茸茸的衝浪無尾熊。

文字編輯視頻

而只要使用文字輸入,就可以編輯現有影片。

Movie Gen可以支援非常精確的影片編輯,無論是樣式、過渡,還是精細編輯。

透過文字輸入,就能讓小女孩向空中放飛的燈籠,變成氣泡。

在沙地上跑步的男子,手中可以加上藍色絨球,周圍環境可以換成仙人掌沙漠,甚至可以讓男子換上一套恐龍套裝。

在觀眾席上觀影的一對男女,可以讓他們戴上3D眼鏡、背景換成遊樂園,甚至加上下雨的特效。

南極冰原上的企鵝可以穿上維多利亞式的衣服,背景可以加上遮陽傘和沙灘床,甚至整幅畫面都能變成鉛筆素描畫。

個性化影片

並且,Movie Gen還有一個Sora沒有的亮點——個人化影片!

只要上傳我們想要的圖像,它就可以由此生成個性化視頻,保留人物的身份和動作。

輸入這個女孩的照片,給出prompt,就能讓她在南瓜地上戴著圍巾喝咖啡。

讓這名男子化身科學家,穿上實驗服開始做實驗。

一張照片,就能產生自己和愛犬在露台上的自拍影片。

甚至讓自己在西部世界小鎮化身騎馬的女牛仔,身後就是洛磯山脈。一秒走進大片不是夢!

音效和配樂

Movie Gen還可以將影片、文字作為輸入,並為影片產生音訊。

它可讓你創建和擴展視訊音效、背景音樂或整個配樂。

例如,下面企鵝戲水的畫面中,配上了AI生成的優美的管弦樂曲。

文字輸入:A beautiful orchestral piece that evokes a sense of wonder

AI產生的煙火音效,也是如此逼真。

文字輸入:哨聲響起,隨後是劇烈的爆炸和巨大的劈啪聲。

傾瀉而下的瀑布和雨水,站在高處遙遠遠方頓感壯觀。

文字輸入:雨傾盆而下,打在懸崖和人身上,背景音樂在播放。

一條蛇在草地裡緩慢前進,給人一種危機四伏的趕腳。

文字輸入:樹葉沙沙作響,樹枝折斷,伴隨著管弦樂曲目。

AI生成的背景音,很有山地摩托摩托競賽那味兒了。

文字輸入:ATV engine roars and accelerates, with guitar music.

還有溜滑板,配上動作,給予不同節奏的音效。

文字輸入:輪子旋轉,滑板落在混凝土上時發出砰的一聲。

92頁技術報告,同用Llama 3架構

Movie Gen發布同時,Meta也祭了92頁的技術報告。值得一提的是,這次團隊也被命名為「Movie Gen team」。

Pytorch之父Soumith Chintala表示,其中許多細節將會推動AI影片領域的發展。

接下來,一起看看Movie Gen得以實現的技術要點吧。

研究人員表示,Movie Gen主要是基於兩種基礎模型打造的,一個是Movie Gen Video,另一個是Movie Gen Audio。

電影生成視頻

Movie Gen Video參數有300億,基礎架構細節如下圖。

它能夠聯合文本到圖像和文本到視頻的生成。

Movie Gen Video可以遵循文字提示,產生長達16秒、16幀每秒高清影片。

它也是透過預訓練微調完成,在骨幹網路架構上,它繼續沿用了Transformer的設計,尤其是藉鏡的Llama3的設計。

而且,該模型具有強大的適應性,可產生不同縱橫比、解析度和時長的高品質影像和影片。

預訓練階段,在大約1億個影片和10億張影像上進行了聯合預訓練。

它是透過“看”視頻,來學習視覺世界。

實驗結果發現,Movie Gen Video模型能夠理解物理世界——

可以推理物體運動、主客體互動、幾何關係、相機運動、物理規律,以及各種概念的合理運動。

在微調階段,研究人員精選了一部分視頻,對模型在美學、運動品質方面完成了微調。

為了提高訓練、推理效率,研究人員在時空壓縮的潛在空間(Latent Space)中進行產生。

為此,他們訓練了一個單一的時間自編碼器(TAE),用於將RGB影像和視訊映射到潛在空間。

然後,再使用預訓練文字編碼器,來編碼使用者提供的文字提示,並獲得文字提示嵌入,這些嵌入用作模型的條件。

流匹配,擊敗擴散損失

值得一提的是,研究人員還引入「流匹配」(Flow Matching)來訓練生成模型,這使得影片生成效果在精度、細節表現上,都優於擴散模型。

「流匹配」是一種新興的生成模型訓練方法,其核心思想是-直接學習樣本從初始雜訊狀態轉換到目標資料分佈的過程。

而且,模型只需透過估計如何在每個時間步中演化樣本,即可產生高品質的結果。

與擴散模型相比,「流匹配」訓練效率更高、計算成本更低、並且在時間維度保持連續性和一致性。

有網友對此總結道,在品質和文字對齊上,人類評估都強烈傾向於流匹配,而不是擴散。

此外,Movie Gen Video在技術上也引入了許多創新:

他們引入了創新的位置編碼方法——「因子化可學習編碼」,能夠獨立對高度、寬度、時間三個維度進行編碼,然後將其相加。

基於這種靈活設計,讓模型不僅能適應不同寬高比,還能處理任意長度的影片。

另外,為了解決模型推理效率問題,研究人員採用了「線性-二次時間步長」的策略。

如下圖所示,僅需50步,就能達到接近1000步取樣效果,大幅提升了推理速度。

同時,Movie Gen Video也採用了巧妙的「時間平鋪」方法,進一步提升生成效率。

具體來說,這種方法將輸入的視頻,在時間維度上切分成多個小片段,然後對每個片對獨立進行編碼和解碼,最後再將所有處理好的片段,重新拼接成完成視頻。

这种分而治之策略,不仅显著降低内存需求,还提高了整体推理效率。

為了確保最終生成的視訊質量,團隊在解碼階段採用了精心設計的重疊和混合技術。

最後微調得到的Movie Gen Video模型,與目前最先進的模型相比,大幅超越LuamaLabs的Dream Machine,還有Gen-3。

它僅小幅超越了Sora、Kling 1.5。

如下是,產生影像品質的對比。總的來說,Movie Gen Video在畫面一致性、品質等方面,均取得了最優表現。

提示中袋鼠走路細節,在Sora中到最後並沒有展現。

電影生成音訊

音訊模型參數共有130億,能夠產生48kHz的高品質電影音效和音樂。

而且,這些AI音頻與輸入視頻,實現同步。

值得一提的是,Movie Gen Audio可以原生處理不同長度音訊產生。

這個過程是透過TAE完成解碼與編碼。

而且,透過音訊延伸技術,能夠為長達幾分鐘視頻,製作出連貫長音頻。

研究人員在大約100萬小時音訊上,對模型進行了預訓練。

所得到的預訓練模型,不僅學會了物理關聯,也學會了視覺世界和音訊世界之間的心理關聯。

另外,模型還可以生成,與視覺場景相符的非畫面「內環境」聲音,即便是聲音來源沒有出現在畫面中。

最後,模型還可以產生支持情緒,並與視覺場景動作相符的非畫面內音樂。

而且,它還能與專業地混合音效和背景音樂。

透過評估,與目前先進的音訊模型ElevenLabs等相比,Movie Gen Audio結果如下所示。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
五菱宏光MINI EV加長版曝光神似日本特產K-Car
NEXT
歐盟通過對華電車高關稅投票:三條因應之策與未來關鍵一個月

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 10 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 9 月   11 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 亞馬遜的Kuiper 衛星將獲得競爭對手SpaceX 的輔助 2025-07-16
  • 突破性研究顯示烏龜擁有與我們相似的情感 2025-07-16
  • 被埋藏了1.45億年多瘤齒哺乳動物新物種被一名學生在海灘上發現 2025-07-16
  • 新研究以前所未有的細節重建了5.4億年的海平面變化 2025-07-16
  • 現在可以讓Windows 11 Copilot 助理查看整個桌面 2025-07-16
  • iPhone 17 Air據稱將採用鈦金屬框架與iPhone 17 Pro的不同 2025-07-16
  • 傳Google Pixel Watch 4將沿用舊晶片但電池容量更大 2025-07-16
  • 阿迪達斯推出了3D列印Climacool運動鞋的繫帶版本 2025-07-16
  • Windows 11自備應用程式將迎來重大變革以提升使用者體驗與安全性 2025-07-16
  • AMD處理器銷售輕鬆超越所有英特爾CPU 即使是上一代AM4型號 2025-07-16

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • 睡眠呼吸中止症病例增加45% 全球氣溫因素是罪魁禍首
  • Rocket Lab成功幫助DARPA發射一枚R3D2小型實驗衛星
  • 研究發現每週工作四天能提高員工的幸福感同時不影響生產力
  • 萬能驅動v7.18.1018.3(2018.11.17 發布)-裝機必備的萬能驅動
  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版
  • 被埋藏了1.45億年多瘤齒哺乳動物新物種被一名學生在海灘上發現
  • iPhone 17 Air據稱將採用鈦金屬框架與iPhone 17 Pro的不同
  • 視頻轉換器Any Video Converter Ultimate v7.0.5

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.