OpenAI Sora核心技術被曝縫合自DeepMind和謝賽寧論文?
為何Sora會掀起滔天巨浪?Sora的技術,就是機器模擬我們世界的下一步。而且今天有人扒出,Sora創新的核心秘密時空Patches,竟是來自GoogleDeepMind和謝賽寧的論文成果。OpenAI,永遠快別人一步!像ChatGPT成功搶了Claude的頭條一樣,這次,Google核彈級大殺器Gemini 1.5才推出沒幾個小時,全世界的目光就被OpenAI的Sora搶了去。
100萬token的上下文,光靠一本文法書就學會了一門全新的語言,如此震撼的技術進步,在Sora的榮光下被襯得暗淡無光,著實令人唏噓。
這次,不過也是之前歷史的重演。
為什麼ChatGPT會提前誕生?
《這就是ChatGPT》一書對此進行了揭秘: 當時OpenAI管理層聽說,從OpenAI“ 叛逃” 的前員工創立的公司Anthropic Claude有意提前推出Chatbot。
管理階層立刻意識到這個產品潛力巨大,於是先下手為強,第一時間改變節奏,出手截胡Anthropic。
11月中旬,在研發GPT-4的OpenAI員工收到指示:所有工作暫停,全力推出一款聊天工具。兩週後,ChatGPT誕生,從此改變人類歷史。
或許,這也揭示了為什麼一家公司可以永載史冊的原因:領導者能夠發現有市場潛力的新產品,全面攔截所有成功的可能性。
對於Google被截胡一事,網友銳評:OpenAI用Sora對抗Gemini發布的方式簡直了,Google從來沒有受過這樣的打擊。
這不得不讓人懷疑,OpenAI手上是不是還攥著一堆秘密武器,每當競爭對手發布新技術,他們就放出來一個爆炸級消息。
要知道,現在才剛剛是2024年2月,想想接下來要發生的事,不免覺得毛骨悚然。
為何Sora掀起滔天巨浪
Sora一出,馬斯克直接大喊:人類徹底完蛋了!
馬斯克為什麼這麼說?
OpenAI科學家Tim Brooks表示,沒透過人類預先設定,Sora就自己透過觀察大量數據,自然而然學會了關於3D幾何形狀和一致性的知識。
從本質上來說,Sora的技術,就是機器模擬我們世界的一個里程碑。
外媒Decoder直言:OpenAI令人驚嘆的視頻模型處女作Sora的誕生,感覺就像是GPT-4時刻。
更有人表示,在Sora之中,我實際感受到了AGI。
這就是為什麼Sora會在全世界掀起滔天巨浪的原因。
要了解Sora如此強大的能力從何而來,除了OpenAI官方給出的技術報告,業界大佬也進行了進一步的解讀。
LeCun轉發了華人學者謝賽寧的推文,認為Sora基本上是基於謝賽寧等人在去年被ICCV 2023收錄的論文提出的框架設計而成的。
而和謝賽寧一起合著這篇論文的William Peebles之後也加入了OpenAI,領導了開發Sora的技術團隊。
所以謝賽寧的對於Sora的技術解讀,具備極高的參考價值。
謝賽寧:Sora很厲害,不過好像是用了我的論文成果
AI大神謝賽寧,針對Sora的技術報告談了自己的看法。
專案網址:https://wpeebles.com/DiT
– 架構:Sora應該是基於他和Bill先前在ICCV 2023上提出的以Transformer為主幹的擴散模型(DIT)
其中,DIT=[VAE編碼器+VIT+DDPM+VAE解碼器]。
根據技術報告,好像沒有其他特別的設計了。
-「視訊壓縮網路」:似乎是一個VAE,但訓練的是原始視訊資料。
在獲得良好的時間一致性方面,tokenize可能扮演了重要的角色。
VAE是一個ConvNet。所以從技術上講,DIT是一個混合模型。
謝賽寧表示,他們在DIT項目沒有創造太多的新東西,但是兩個方面的問題:簡單性和可擴展性。
這也許就是Sora為什麼要基於DIT建構的主要原因。
首先,簡單意味著靈活
當涉及到輸入資料時,如何使模型更加靈活。
例如,在遮罩自動編碼器(MAE)中,VIT幫助我們只處理可見的patch,而忽略掉被mask的。
同樣,Sora可以透過在適當大小的網格中安排隨機初始化的patch來控制生成的影片的大小。
UNet並非直接提供這種彈性。
猜測:Sora可能還會使用Google的Patch n’Pack(Navit),以使DIT能夠適應不同的解析度/持續時間/長寬比。
其次,可擴展性是DIT論文的核心主題
就每Flop的時鐘時間而言,優化的DiT比UNet運行得快得多。
更重要的是,Sora證明了DIT縮放法則不僅適用於影像,現在也適用於影片——Sora複製了DIT中觀察到的視覺縮放行為。
猜測:在Sora的演示中,第一個影片的品質相當差,謝懷疑它使用的是最基礎的模型。
粗略計算一下,DIT XL/2是B/2模型的5倍GFLOPs,因此最終的16倍計算模型可能是DIT-XL模型的3倍,這意味著Sora可能有約30億個參數。
如果真的是如此,Sora的模型規模可能沒有那麼大。
這可能表明,訓練Sora可能不需要像人們預期的那樣,有非常大的算力要求,所以他預測未來Sora迭代的速度將會很快。
進一步的,謝賽寧解釋了Sora提供的關鍵的洞見來自「湧現的模擬能力」這一表現上。
在Sora之前,尚不清楚長期形式的一致性是否會自行湧現,或者是否需要複雜的主題驅動的其他流程,甚至是實體模擬器。
而現在OpenAI已經表明,雖然現在結果還不完美,但這些行為和能力可以透過端到端的訓練來實現。
然而,有兩個要點還不是很明確。
1. 訓練資料:技術報告沒有涉及訓練的資料集,這可能意味著資料是Sora成功的最關鍵因素。
目前已經有很多關於遊戲引擎數據的猜測。他期待包括電影、紀錄片、電影長鏡頭等。
2. (自回歸)長影片生成:Sora的一個重大突破是產生超長影片的能力。
製作一段2秒鐘的影片和1分鐘的影片之間的差異是巨大的。
Sora可能是透過允許自回歸採樣的聯合幀預測來實現的,但這裡最主要挑戰是如何解決誤差累積問題,並隨著時間的推移保持品質/一致性。
OpenAI Sora的技術,就是機器模擬我們世界的重要下一步
AI究竟如何將靜態圖形轉換為動態、逼真的影片?
Sora的一大創新,就是創新地使用了時空patch。
透過底層訓練和patch,Sora能夠理解並開發近乎完美的視覺模擬,像是Minecraft這樣的數位世界。這樣,它就會為未來的AI創造出訓練內容。有了數據和系統,AI就能更理解世界。
從此,我們可以解鎖VR的新高度,因為它改變了我們看待數位環境的方式,將VR的邊界推向了新的高度,創造出近乎完美的3D環境。可以在Apple Vision Pro或Meta Quest上按需與空間運算配對了。
除了謝賽寧的解讀之外,AI專家Vincent Koc,也對此展開了詳細分析。
Sora的獨特方法如何改變影片生成
以往,生成模型的方法包括GAN、自回歸、擴散模型。它們都有各自的優勢和限制。
而Sora引入的,是一種全新的典範轉移——新的建模技術和靈活性,可以處理各種時間、縱橫比和解析度。
Sora所做的,就是把Diffusion和Transformer架構結合在一起,創造了diffusion transformer模型。
於是,以下功能應運而生——
文字轉視頻:將文字內容變成視頻
圖片轉影片:賦予靜止影像動態生命
影片風格轉換:改變原有影片的風格
影片時間延展:可將影片向前或向後延長
創造無縫循環視頻:製作出看起來永無止境的循環視頻
產生單幀影像影片:將靜態影像轉換為最高2048 x 2048解析度的單幀視頻
產生各種格式的影片:支援從1920 x 1080到1080 x 1920之間各種解析度格式
模擬虛擬世界:創造出類似Minecraft等遊戲的虛擬世界
創作短視頻:製作最長一分鐘的視頻,包含多個短片
這就好比,我們在廚房。
傳統的影片生成模型,例如Pika和RunwayML,就像照食譜做菜的廚師一樣。
他們可以做出好吃的菜餚(影片),但會受到他們所知的食譜(演算法)所限。
使用特定的成分(資料格式)和技術(模型架構),它們只擅長烘焙蛋糕(短片)或烹飪義大利麵(特定類型的影片)。
而與他們不同的是,Sora是一位基礎知識紮實的新型廚師。
它不僅能照舊食譜做菜,還能自己發明新食譜!
這位住大廚多才多藝,對於食材(數據)和技術(模型架構)的掌握十分靈活,因而能夠做出各種高品質的影片。
探索Sora秘密成分的核心:時空patch
時空patch,是Sora創新的核心。
它建立在Google DeepMind早期對NaViT和ViT(視覺Transformer)的研究之上。
論文網址:https://arxiv.org/abs/2307.06304
而這項研究,又是基於一篇2021年的論文「An Image is Worth 16×16 Words」。
論文網址:https://arxiv.org/abs/2010.11929
傳統上,對於視覺Transformer,研究者都是使用一系列圖像patch來訓練用於圖像識別的Transformer模型,而不是用於語言Transformer的單字。
這些patch,能使我們能夠擺脫卷積神經網路進行影像處理。
然而,視覺Transforemr對影像訓練資料的限制是固定的,這些資料的大小和縱橫比是固定的,這舊限制了質量,並且需要大量的影像預處理。
而透過將影片視為patch序列,Sora保持了原始的縱橫比和分辨率,類似於NaViT對影像的處理。
這種保存,對於捕捉視覺資料的真正本質至關重要!
透過這種方法,模型能夠從更準確的世界表示中學習,從而賦予Sora近乎神奇的準確性。
時空patch的可視化
這種方法使Sora能夠有效地處理各種視覺數據,而無需調整大小或填充等預處理步驟。
這種靈活性確保了每個數據都有助於模型的理解,就像廚師可以使用各種食材,來增強菜餚的風味特徵一樣。
時空patch對視訊資料詳細且靈活的處理,為精確的物理模擬和3D一致性等複雜功能奠定了基礎。
從此,我們可以創建看起來逼真且符合世界物理規則的視頻,人類也得以一窺AI創建複雜、動態視覺內容的巨大潛力。
多樣化資料在訓練中的作用
訓練資料的品質和多樣性,對於模型的效能至關重要。
傳統的視訊模型,是在限制性更強的資料集、更短的長度和更窄的目標上進行訓練的。
而Sora則利用了龐大而多樣的資料集,包括不同持續時間、解析度和縱橫比的視訊和影像。
它能夠重新創建像Minecraft這樣的數位世界,以及Unreal或Unity等系統的類比世界鏡頭,以捕捉影片內容的所有角度和各種風格。
這樣,Sora就成了一個「通才」模型,就像GPT-4對於文本一樣。
這種廣泛的訓練,使Sora能夠理解複雜的動態,並產生多樣化、高品質的內容。
這種方法模仿了在各種文字資料上訓練LLM的方式,將類似的理念應用於視覺內容,實現了通才功能。
可變Patches NaVit與傳統的視覺Transformer
NaViT模型透過將來自不同影像的多個patch打包到單一序列中,得到了顯著的訓練效率和效能提升一樣。
同樣地,Sora利用時空patch在視訊生成上實現類似的效率。
這種方法允許模型從龐大的資料集中更有效地學習,提高了模型生成高保真視訊的能力,同時降低了與現有建模架構相比所需的計算量。
讓物理世界栩栩如生:Sora對3D和連續性的掌握
3D空間和物件的一致性,是Sora演示中的關鍵亮點。
透過對各種視訊資料進行訓練,無需對視訊進行調整或預處理,Sora學會了以令人印象深刻的精度對物理世界進行建模,原因就在於,它能夠以原始形式使用訓練資料。
在Sora生成的影片中,物體和角色在三維空間中令人信服地移動和交互,即使它們被遮蔽或離開框架,也能保持連貫性。
從此,現實不存在了,創造力和現實主義的界限被突破。
並且,Sora為模型的可能性設立了全新的標準,開源社群很可能會掀起視覺模型的全新革命。
而現在,Sora的旅程才剛開始呢,正如OpenAI所說,擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的道路。
前方,就是AGI和世界模型了。
不過好在,OpenAI員工透露說,Sora短期內不會面世。
一位OpenAI員工發推文表示,現在Sora只會在有限的範圍內試用,現在放出的demo主要是為了獲得社會大眾對它能力的反應
現在,標榜要開發負責任AGI的OpenAI,應該不會冒險給大眾拋出一個潘朵拉魔盒。
參考資料:
來源:量子位