爆火Sora震驚威爾史密斯OpenAI技術路線或早在1月被成功預言

2024-02-20 Comments 0 Comment

威爾史密斯的這段視頻，把全網都騙了！其實Sora的技術路線，早已被人預言了。李飛飛去年就用Transformer做出了逼真的影片。但只有OpenAI大力出奇蹟，跑在了所有人前面。今天，全體AI社群都被威爾史密斯發出的這段影片震驚了！

你以為，上面是一年前的AI視頻，下面是如今的AI視頻？

錯！這個所謂AI生成的視頻，其實正是威爾史密斯本人！

威爾史密斯吃意這個“圖靈測試”，曾讓Runway、Pika等屢屢翻車。

Runway產生的，是這樣的——

但如今，Sora已經做到了逼真似真人、毫無破綻，所以才讓威爾史密斯成功騙過了大眾，這太可怕了！

Sora的出現，其實在今年1月就已被預言

1月5日，一位前阿里的AI專家表示—

我認為，Transformer框架和LLM路線，將是AI影片的一個突破口和新範式，它將使AI影片更加連貫、一致，並且長度更長。目前的Diffusion+Unet路線（如Runway、Pika等），只是暫時的解決方案。

無獨有偶，史丹佛學者李飛飛在去年年底，就用Transformer就做出了逼真的影片。

而馬毅教授也表示，自己團隊去年在NeurIPS一篇論文中也已經證實，用Transformer可以實現diffusion和denosing。

馬毅團隊提出：假設資料分佈是mixed Gaussians，那Transformer blocks就是在實現diffusion/擴散和denoising/壓縮

能想到Sora技術路線的，肯定不只一個人。但全世界第一個把Sora做出來的，就是OpenAI。

OpenAI為何總是能成功？無他，唯手快。

Runway和Pika「點歪」的科技樹，被OpenAI掰正了

在此之前，Runway、Pika等AI視訊工具吸引了不少聚光燈。

而OpenAI的Sora，不僅效果更真實，就是把Transformer對前後文的理解和強大的一致性，發揮得淋漓盡致。

這輛全新的科技樹，真是夠震撼的。

不過我們在開頭也可以看到，OpenAI並不是第一個想到這點的人。 Transformer框架+LLM路線這種新範式，其實早已有人想到了。

就如同AI大V「闌夕」所言，OpenAI用最簡單的話，把最複雜的技術講清楚了——

“圖片只是單幀的視頻。”

科技業這種從容的公共表達，真是前所未見，令人醍醐灌頂。

「闌夕」指出，「圖片只是單幀的影片」的妙處就在於，圖片的創建不會脫離時間軸而存在，Sora實際上是提前給影片寫了腳本的。

甚至無論使用者如何Prompt，Sora AI都有自己的構圖思維。

而這，就是困住Runway、Pika等公司最大的問題。

它們的思路，基本上都是基於一張圖片來讓AI去想像，完成延伸和填補，從而疊加成影片。比拼的是誰家的AI更能理解使用者想要的內容。

因此，這些AI影片極易發生變形，如何保持一致性成了登天般的難題。

Diffusion Model這一局，是徹底輸給Transformer了。

ChatGPT故事再次重演，Sora其實站在Google的肩膀上

讓我們深入扒一扒，Sora是站在哪些前人的肩膀上。

簡言之，最大創新Patch的論文，就是Google發表的。

Diffusion Transformer的論文，來自William Peebles和謝賽寧。

此外，Meta等機構、UC柏克萊等名校皆有貢獻。

William Peebles和謝賽寧提出的框架

紐約大學電腦系助理教授謝賽寧在分析了Sora的技術報告後表示，Sora應該是基於自己和William Peebles提出的框架設計而成。

這篇提出了Sora基礎架構的論文，去年被ICCV收錄。

論文網址：https://arxiv.org/abs/2212.09748

隨後，William Peebles加入了OpenAI，領導了開發Sora的技術團隊。

圖靈三巨頭之一、Meta AI主管LeCun，也轉發了謝賽寧的貼文表示認可。

巧合的是，謝賽寧是LeCun的前FAIR同事、現紐約大學同事，William Peebles是LeCun的前柏克萊學生、現任OpenAI工程師。 AI果然是個圈。

最近，謝賽寧對說自己是Sora作者的說法進行了闢謠

CVPR“有眼不識泰山”，拒絕掉Sora基礎論文

有趣的是，Diffusion Transformer這篇論文曾因「缺乏創新性」被CVPR 2023拒收，後來才被ICCV2003接收。

謝賽寧表示，他們在DIT項目沒有創造太多的新東西，但是兩個方面的問題：簡單性和可擴展性。這也許就是Sora為什麼要基於DIT建構的主要原因。

此前，生成模型的方法包括GAN、自回歸、擴散模型。它們都有各自的優勢和限制。

而Sora引入的，是一種全新的典範轉移——新的建模技術和靈活性，可以處理各種時間、縱橫比和解析度。

Sora所做的，就是把Diffusion和Transformer架構結合在一起，創造了diffusion transformer模型。

這也即是OpenAI的創新之處。

時空Patch是Google的創新

時空Patch，是Sora創新的核心。

它建立在Google DeepMind早期對NaViT和ViT（視覺Transformer）的研究之上。

論文網址：https://arxiv.org/abs/2307.06304

而這項研究，又是基於一篇2021年的論文「An Image is Worth 16×16 Words」。

論文網址：https://arxiv.org/abs/2010.11929

傳統上，對於視覺Transformer，研究者都是使用一系列圖像Patch來訓練用於圖像辨識的Transformer模型，而不是用於語言Transformer的單字。

這些Patch，能使我們能夠擺脫卷積神經網路進行影像處理。

然而，視覺Transforemr對影像訓練資料的限制是固定的，這些資料的大小和縱橫比是固定的，這就限制了質量，並且需要大量的影像預處理。

而透過將影片視為Patch序列，Sora保持了原始的縱橫比和分辨率，類似於NaViT對影像的處理。

這種保存，對於捕捉視覺資料的真正本質至關重要！

透過這種方法，模型能夠從更準確的世界表示中學習，從而賦予Sora近乎神奇的準確性。

時空Patch的可視化

GooglePatch的論文，發表於2021年。 3年後，OpenAI基於這項技術，做出了Sora。

這段歷史看起來是不是有點眼熟？簡直就像是「Attention Is All You Need」的歷史重演。

2017年6月12日，8位Google研究人員發表了Attention is All You Need，大名鼎鼎的Transformer橫空出世。

它的出現，讓NLP變了天，成為自然語言領域的主流模式。

論文網址：https://arxiv.org/pdf/1706.03762.pdf

它完全摒棄了遞歸結構，依賴注意力機制，挖掘輸入和輸出之間的關係，進而實現了平行計算。

在Google看來，Transformer是一種語言理解的新型神經網路架構。不過它當初被設計出來，是為了解決翻譯問題。

而後來，Transformer架構被OpenAI拿來發揚光大，成為ChatGPT這類LLM的核心。

2022年，OpenAI用Google17年發表的Transformer來製作ChatGPT。

2024年，OpenAI用Google21年發表的Patch做出Sora。

這也讓人不由感慨：誠如《為什麼偉大不能被計劃》一書中所言，偉大的成就與發明，往往是偏離最初計劃的結果。

前人的無心插柳，為後人的成功做好了奠基石，而一條成功的道路是如何踏出的，完全是出於偶然。

Meta微軟UC伯克利斯坦福MIT亦有貢獻

此外，從Sora參考文獻中可以看出，多個機構和名校都對Sora做出了貢獻。

例如，用Transformer做擴散模型的去噪骨幹這個方法，早已被史丹佛學者李飛飛證明。

在去年12月，李飛飛攜斯坦福聯袂Google，用Transformer生成了逼真影片。

生成的效果可謂媲美Gen-2比肩Pika，當時許多人激動地感慨——2023年已成AI視頻元年，誰成想2024一開年，OpenAI新的震撼就來了！

李飛飛團隊做的，是一個在共享潛空間中訓練影像和影片生成的，基於Transformer的擴散模型。

史上首次，AI學者證明了：Transformer架構可以將圖像和視訊編碼到一個共享的潛空間中！

論文：https://walt-video-diffusion.github.io/assets/WALTpdf

MSRA和北大聯合團隊提出的統一多模態預訓練模型－NÜWA（女媧），也為Sora做出了貢獻。

先前的多模態模型要么只能處理圖像，要么只能處理視頻，而NÜWA則可以為各種視覺合成任務，生成新的圖像和視頻數據。

專案地址：https://github.com/microsoft/NUWA

為了在不同場景下同時覆蓋語言、圖像和視頻，團隊設計了一個三維變換器編碼器-解碼器框架。

它不僅可以處理作為三維數據的視頻，還可以適應分別作為一維和二維數據的文本和圖像。

在8個下游任務中，NÜWA都取得了新的SOTA，在文字到圖像生成的表現，更是直接超越了DALL-E。

NÜWA模型支援的8種典型視覺生成任務

草蛇灰線，伏脈千里。踩在前人的肩膀上，透過敏銳的直覺和不眠不休的高強度工作，OpenAI的研究者就這樣點對了科技樹。

大力出奇蹟的時候到了，不拿出一百億美金的大廠就會out

當然，還有一點不得不承認的是：OpenAI能做出Sora，也是因為背後大量的資金支持。

沒有資金，就沒有數據和算力。即使點對了科技樹也無法驗證。

可以說，Sora是另一個建立在Transformer上的暴力美學。

現在，晶片+AI是人類有史以來最大的科技浪潮。

不拿出100億美金的大廠，就要掉隊了。

國內這邊，格局又會怎麼變換？讓我們拭目以待。

WONGCW 網誌

記錄生活經驗與點滴

爆火Sora震驚威爾史密斯OpenAI技術路線或早在1月被成功預言

2024-02-20 Comments 0 Comment

相關

發表迴響取消回覆

2024 年 2 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29

分享此文：

相關

發表迴響取消回覆