爆火Sora震驚威爾史密斯OpenAI技術路線或早在1月被成功預言
威爾史密斯的這段視頻,把全網都騙了!其實Sora的技術路線,早已被人預言了。李飛飛去年就用Transformer做出了逼真的影片。但只有OpenAI大力出奇蹟,跑在了所有人前面。今天,全體AI社群都被威爾史密斯發出的這段影片震驚了!
你以為,上面是一年前的AI視頻,下面是如今的AI視頻?
錯!這個所謂AI生成的視頻,其實正是威爾史密斯本人!
威爾史密斯吃意這個“圖靈測試”,曾讓Runway、Pika等屢屢翻車。
Runway產生的,是這樣的——
但如今,Sora已經做到了逼真似真人、毫無破綻,所以才讓威爾史密斯成功騙過了大眾,這太可怕了!
Sora的出現,其實在今年1月就已被預言
1月5日,一位前阿里的AI專家表示—
我認為,Transformer框架和LLM路線,將是AI影片的一個突破口和新範式,它將使AI影片更加連貫、一致,並且長度更長。目前的Diffusion+Unet路線(如Runway、Pika等),只是暫時的解決方案。
無獨有偶,史丹佛學者李飛飛在去年年底,就用Transformer就做出了逼真的影片。
而馬毅教授也表示,自己團隊去年在NeurIPS一篇論文中也已經證實,用Transformer可以實現diffusion和denosing。
馬毅團隊提出:假設資料分佈是mixed Gaussians,那Transformer blocks就是在實現diffusion/擴散和denoising/壓縮
能想到Sora技術路線的,肯定不只一個人。但全世界第一個把Sora做出來的,就是OpenAI。
OpenAI為何總是能成功?無他,唯手快。
Runway和Pika「點歪」的科技樹,被OpenAI掰正了
在此之前,Runway、Pika等AI視訊工具吸引了不少聚光燈。
而OpenAI的Sora,不僅效果更真實,就是把Transformer對前後文的理解和強大的一致性,發揮得淋漓盡致。
這輛全新的科技樹,真是夠震撼的。
不過我們在開頭也可以看到,OpenAI並不是第一個想到這點的人。 Transformer框架+LLM路線這種新範式,其實早已有人想到了。
就如同AI大V「闌夕」所言,OpenAI用最簡單的話,把最複雜的技術講清楚了——
“圖片只是單幀的視頻。”
科技業這種從容的公共表達,真是前所未見,令人醍醐灌頂。
「闌夕」指出,「圖片只是單幀的影片」的妙處就在於,圖片的創建不會脫離時間軸而存在,Sora實際上是提前給影片寫了腳本的。
甚至無論使用者如何Prompt,Sora AI都有自己的構圖思維。
而這,就是困住Runway、Pika等公司最大的問題。
它們的思路,基本上都是基於一張圖片來讓AI去想像,完成延伸和填補,從而疊加成影片。比拼的是誰家的AI更能理解使用者想要的內容。
因此,這些AI影片極易發生變形,如何保持一致性成了登天般的難題。
Diffusion Model這一局,是徹底輸給Transformer了。
ChatGPT故事再次重演,Sora其實站在Google的肩膀上
讓我們深入扒一扒,Sora是站在哪些前人的肩膀上。
簡言之,最大創新Patch的論文,就是Google發表的。
Diffusion Transformer的論文,來自William Peebles和謝賽寧。
此外,Meta等機構、UC柏克萊等名校皆有貢獻。
William Peebles和謝賽寧提出的框架
紐約大學電腦系助理教授謝賽寧在分析了Sora的技術報告後表示,Sora應該是基於自己和William Peebles提出的框架設計而成。
這篇提出了Sora基礎架構的論文,去年被ICCV收錄。
論文網址:https://arxiv.org/abs/2212.09748
隨後,William Peebles加入了OpenAI,領導了開發Sora的技術團隊。
圖靈三巨頭之一、Meta AI主管LeCun,也轉發了謝賽寧的貼文表示認可。
巧合的是,謝賽寧是LeCun的前FAIR同事、現紐約大學同事,William Peebles是LeCun的前柏克萊學生、現任OpenAI工程師。 AI果然是個圈。
最近,謝賽寧對說自己是Sora作者的說法進行了闢謠
CVPR“有眼不識泰山”,拒絕掉Sora基礎論文
有趣的是,Diffusion Transformer這篇論文曾因「缺乏創新性」被CVPR 2023拒收,後來才被ICCV2003接收。
謝賽寧表示,他們在DIT項目沒有創造太多的新東西,但是兩個方面的問題:簡單性和可擴展性。這也許就是Sora為什麼要基於DIT建構的主要原因。
此前,生成模型的方法包括GAN、自回歸、擴散模型。它們都有各自的優勢和限制。
而Sora引入的,是一種全新的典範轉移——新的建模技術和靈活性,可以處理各種時間、縱橫比和解析度。
Sora所做的,就是把Diffusion和Transformer架構結合在一起,創造了diffusion transformer模型。
這也即是OpenAI的創新之處。
時空Patch是Google的創新
時空Patch,是Sora創新的核心。
它建立在Google DeepMind早期對NaViT和ViT(視覺Transformer)的研究之上。
論文網址:https://arxiv.org/abs/2307.06304
而這項研究,又是基於一篇2021年的論文「An Image is Worth 16×16 Words」。
論文網址:https://arxiv.org/abs/2010.11929
傳統上,對於視覺Transformer,研究者都是使用一系列圖像Patch來訓練用於圖像辨識的Transformer模型,而不是用於語言Transformer的單字。
這些Patch,能使我們能夠擺脫卷積神經網路進行影像處理。
然而,視覺Transforemr對影像訓練資料的限制是固定的,這些資料的大小和縱橫比是固定的,這就限制了質量,並且需要大量的影像預處理。
而透過將影片視為Patch序列,Sora保持了原始的縱橫比和分辨率,類似於NaViT對影像的處理。
這種保存,對於捕捉視覺資料的真正本質至關重要!
透過這種方法,模型能夠從更準確的世界表示中學習,從而賦予Sora近乎神奇的準確性。
時空Patch的可視化
GooglePatch的論文,發表於2021年。 3年後,OpenAI基於這項技術,做出了Sora。
這段歷史看起來是不是有點眼熟?簡直就像是「Attention Is All You Need」的歷史重演。
2017年6月12日,8位Google研究人員發表了Attention is All You Need,大名鼎鼎的Transformer橫空出世。
它的出現,讓NLP變了天,成為自然語言領域的主流模式。
論文網址:https://arxiv.org/pdf/1706.03762.pdf
它完全摒棄了遞歸結構,依賴注意力機制,挖掘輸入和輸出之間的關係,進而實現了平行計算。
在Google看來,Transformer是一種語言理解的新型神經網路架構。不過它當初被設計出來,是為了解決翻譯問題。
而後來,Transformer架構被OpenAI拿來發揚光大,成為ChatGPT這類LLM的核心。
2022年,OpenAI用Google17年發表的Transformer來製作ChatGPT。
2024年,OpenAI用Google21年發表的Patch做出Sora。
這也讓人不由感慨:誠如《為什麼偉大不能被計劃》一書中所言,偉大的成就與發明,往往是偏離最初計劃的結果。
前人的無心插柳,為後人的成功做好了奠基石,而一條成功的道路是如何踏出的,完全是出於偶然。
Meta微軟UC伯克利斯坦福MIT亦有貢獻
此外,從Sora參考文獻中可以看出,多個機構和名校都對Sora做出了貢獻。
例如,用Transformer做擴散模型的去噪骨幹這個方法,早已被史丹佛學者李飛飛證明。
在去年12月,李飛飛攜斯坦福聯袂Google,用Transformer生成了逼真影片。
生成的效果可謂媲美Gen-2比肩Pika,當時許多人激動地感慨——2023年已成AI視頻元年,誰成想2024一開年,OpenAI新的震撼就來了!
李飛飛團隊做的,是一個在共享潛空間中訓練影像和影片生成的,基於Transformer的擴散模型。
史上首次,AI學者證明了:Transformer架構可以將圖像和視訊編碼到一個共享的潛空間中!
論文:https://walt-video-diffusion.github.io/assets/WALTpdf
MSRA和北大聯合團隊提出的統一多模態預訓練模型-NÜWA(女媧),也為Sora做出了貢獻。
先前的多模態模型要么只能處理圖像,要么只能處理視頻,而NÜWA則可以為各種視覺合成任務,生成新的圖像和視頻數據。
專案地址:https://github.com/microsoft/NUWA
為了在不同場景下同時覆蓋語言、圖像和視頻,團隊設計了一個三維變換器編碼器-解碼器框架。
它不僅可以處理作為三維數據的視頻,還可以適應分別作為一維和二維數據的文本和圖像。
在8個下游任務中,NÜWA都取得了新的SOTA,在文字到圖像生成的表現,更是直接超越了DALL-E。
NÜWA模型支援的8種典型視覺生成任務
草蛇灰線,伏脈千里。踩在前人的肩膀上,透過敏銳的直覺和不眠不休的高強度工作,OpenAI的研究者就這樣點對了科技樹。
大力出奇蹟的時候到了,不拿出一百億美金的大廠就會out
當然,還有一點不得不承認的是:OpenAI能做出Sora,也是因為背後大量的資金支持。
沒有資金,就沒有數據和算力。即使點對了科技樹也無法驗證。
可以說,Sora是另一個建立在Transformer上的暴力美學。
現在,晶片+AI是人類有史以來最大的科技浪潮。
不拿出100億美金的大廠,就要掉隊了。
國內這邊,格局又會怎麼變換?讓我們拭目以待。