解密OpenAI超級視訊模型Sora技術報告虛擬世界湧現了
OpenAI首個AI視訊模型Sora橫空出世,再次創造歷史。這個堪稱「世界模型」的技術報告也在今天發布了,不過依然沒有公開具體訓練細節。昨天白天,「現實不存在了」開始全網刷屏。 「我們這麼快就步入下一個時代了?Sora簡直太炸裂了」。
「這就是電影製作的未來」!
Google的Gemini Pro 1.5還沒出幾個小時的風頭,天一亮,全世界的聚光燈就集中在了OpenAI的Sora身上。
Sora一出,眾視頻模型臣服。
就在幾小時後,OpenAI Sora的技術報告也發布了!
其中,「里程碑」也成為報告中的關鍵字。
報告網址:https://openai.com/research/video-generation-models-as-world-simulators
技術報告主要介紹了兩個面向:
(1)如何將不同類型的視覺資料轉化為統一的格式,以便於對生成模型進行大規模訓練的方法;
(2)對Sora的能力和限制的定性評估。
不過遺憾的是,報告不包括模型和實作細節。嗯,OpenAI還是那個「OpenAI」。
就連馬斯克都被Sora生成效果震撼到,並表示「gg人類」。
打造虛擬世界模擬器
先前,OpenAI的研究者一直在探索的一個難題就是,究竟怎樣在視訊資料上,應用大規模訓練的生成模型?
為此,研究者同時對對持續時間、解析度和寬高比各不相同的影片和圖片進行了訓練,而這個過程正是基於文字條件的擴散模型。
他們採用了Transformer架構,這種架構能夠處理影片和圖片中時空片段的潛代碼。
隨之誕生的最強大模型Sora,也就具備了產生一分鐘高品質影片的能力。
OpenAI研究者發現了令人驚訝的一點:擴展視訊生成模型的規模,是建立模擬物理世界通用模擬器的非常有希望的方向。
也就是說,沿著這個方向發展,或許LLM真的能夠成為世界模型!
Sora的獨到之處在於哪裡?
要知道,先前的許多研究,都是透過各種技術對視訊資料進行生成模型建模,例如循環網路、生成對抗網路、自回歸Transformer和擴散模型等方法。
它們往往只專注於特定類型的視覺數據、較短的影片或固定尺寸的影片。
而Sora與它們不同,它是一種通用的視覺資料模型,能夠產生各種持續時間、寬高比和解析度的影片和圖片,甚至長達一分鐘的高清影片。
有網友表示,「Sora雖然有一些不完美之處(可以檢測出來),例如從物理效果可以看出它是人工合成的。但是,它將會革命性地改變許多行業。
想像一下可以生成動態的、個人化的廣告影片進行精準定位,這將是一個萬億美元的產業」!
為了驗證SORA的效果,業界大佬Gabor Cselle把它和Pika、RunwayML和Stable Video做了比較。
首先,他採用了與OpenAI範例中相同的Prompt。
結果顯示,其他主流工具產生的影片大約只有5秒鐘,而SORA可以在一段長達17秒影片場景中,保持動作和畫面一致性。
隨後,他將SORA的起始畫面用作參照,努力透過調整指令提示和控制相機動作,嘗試使其他模型產出與SORA類似的效果。
相比之下,SORA在处理较长视频场景方面的表现显著更出色。
看到如此震撼的效果,也難怪業界人士都在感嘆,SORA在AI影片製作領域確實具有革命性意義。
將視覺數據轉化為patch
LLM之所以會成功,就是因為它們在網路規模的資料上進行了訓練,獲得了廣泛能力。
它成功的一大關鍵,就是使用了token,這樣,文本的多種形態——代碼、數學公式以及各種自然語言,就優雅地統一了起來。
OpenAI的研究者,正是從中找到了靈感。
該如何讓視覺資料的生成模型繼承token的這種優勢?
注意,不同於LLM使用的文字token,Sora使用的是視覺patch。
先前已有研究表明,patch對視覺資料建模非常有效。
OpenAI研究者驚訝地發現,patch這種高度可擴展的有效表徵形式,正適用於訓練能處理多種類型影片和圖片的生成模型。
從宏觀角度來看,研究者首先將影片壓縮到一個低維潛空間中,接著把這種表徵分解為時空patch,這樣就實現了從影片到patch的轉換。
視訊壓縮網絡
研究者開發了一個網絡,來減少視覺資料的維度。
這個網路可以接受原始視訊作為輸入,並輸出一個在時間上和空間上都進行了壓縮的潛表徵。
Sora在這個壓縮後的潛空間中進行訓練,之後用來產生影片。
另外,研究者也設計了一個對應的解碼器模型,用於將產生的潛資料轉換回像素空間。
潛空間patch
對於一個壓縮後的輸入視頻,研究者提取看一系列空間patch,作為Transformer的token使用。
這個方案同樣適用於影像,因為影像可以被視為只有一格的影片。
基於patch的表徵方法,研究者使得Sora能夠處理不同解析度、持續時間和縱橫比的影片和影像。
在推理時,可以透過在一個合適大小的網格中適當排列隨機初始化的patch,從而控制生成影片的大小。
擴充Transformer
因此,視頻模型Sora是一個擴散模型;它能夠接受帶有噪聲的patch(和條件信息,如文本提示)作為輸入,隨後被訓練,來預測原始的“乾淨”patch。
重要的是,Sora是基於Transformer的擴散模型。在以往,Transformer在語言模型、電腦視覺和影像生成等多個領域,都展現出卓越的擴展能力。
令人驚訝的是,在這項工作中,研究者發現作為視訊模型的擴散Transformer,也能有效地擴展。
下圖展示了訓練過程中使用固定種子和輸入的影片樣本比較。
随着训练计算资源的增加,样本质量显著提升。
影片的多樣化表現
傳統上,影像和視訊的生成技術往往會將視訊統一調整到一個標準尺寸,例如4秒鐘、解析度256×256的影片。
然而,OpenAI研究者發現,直接在影片的原始尺寸上進行訓練,能帶來許多好處。
靈活的影片製作
Sora能夠製作各種尺寸的視頻,從寬屏的1920×1080到豎屏的1080×1920,應有盡有。
這也意味著,Sora能夠為各種裝置製作適配螢幕比例的內容!
它也可以先以較低解析度快速製作出影片原型,再用相同的模型製作全解析度的影片。
更優的畫面表現
实验发现,直接在视频原始比例上训练,能够显著提升视频的画面表现和构图效果。
因此,研究者將Sora與另一個版本的模型進行了比較,後者將所有訓練影片裁剪為正方形,這是生成模型訓練中的常見做法。
與之相比,Sora生成的影片(右)在畫面構成上則有了明顯的改進。
深入的語言理解
訓練文字到影片的生成系統,需要大量配有文字說明的影片。
研究者採用了DALL·E 3中的重新標註技術,應用在了影片上。
首先,研究者訓練了一個能產生詳細描述的標註模型,然後用它為訓練集中的所有視頻,生成文本說明。
他們發現,使用詳細的影片說明進行訓練,不僅能提高文字的準確性,還能提升影片的整體品質。
類似DALL·E 3,研究者也使用了GPT,把使用者的簡短提示轉換成詳細的說明,然後這些說明會被輸入到影片模型中。
這樣,Sora就能根據用戶的具體要求,產生高品質、準確無誤的影片。
圖像和影片的多樣化提示
雖然展示的案例,都是Sora將文字轉換為影片的demo,但其實,Sora的能力不只如此。
它還可以接受圖像或視訊等其他形式的輸入。
這就讓Sora能夠完成一系列圖像和影片編輯任務,例如製作無縫循環影片、為靜態圖片添加動態、在時間線上擴展影片的長度等等。
為DALL·E圖像賦予生命
Sora能夠接受一張圖像和文字提示,然後基於這些輸入生成影片。
下面即是Sora基於DALL·E 2和DALL·E 3影像所產生的影片。
一隻戴著貝雷帽和黑高領衫的柴犬。
五口怪物的插畫,採用了簡潔明快的扁平設計風格。其中包括一隻毛茸茸的棕色怪物,一隻光滑的黑色怪物長著天線,還有一隻綠色的帶斑點怪物和一隻小巧的帶波點怪物,它們在一個歡快的場景中相互玩耍。
一張逼真的雲朵照片,上面寫著「SORA」。
在一個典雅古老的大廳內,一道巨浪滔天,正要破浪而下。兩位衝浪者把握時機,巧妙地滑行在浪尖上。
視訊時間軸的彈性擴展
Sora不僅能產生視頻,還能將視頻沿著時間線向前或向後擴展。
可以看到,demo中的影片都是從同一個影片片段開始,向時間軸的過去延伸。儘管開頭各不相同,但它們最終都匯聚於同一個結尾。
而透過這種方法,我們就能將影片向兩個方向延伸,創造出一個無縫的循環影片。
影像的生成能力
同樣,Sora也擁有生成影像的能力。
為此,研究者將高斯噪聲patch排列在空間網格中,時間範圍為一幀。
模型可產生不同大小的影像,解析度最高可達2048×2048像素。
左:一位女士在秋季的特寫照片,細節豐富,背景模糊。
右:一個生氣勃勃的珊瑚礁,居住著五顏六色的魚類和海洋生物。
左:一幅數字繪畫,描繪了一隻幼年老虎在蘋果樹下,採用了精美的啞光畫風。
右:一個被雪覆蓋的山村,溫馨的小屋和壯麗的北極光相映成趣,畫面細膩逼真,採用了50mm f/1.2鏡頭拍攝。
視訊風格與環境的變換
利用擴散模型,就能透過文字提示編輯圖像和影片。
在這裡,研究者將一種名為SDEdit的技術應用於Sora,使其能夠不需要任何先驗樣本,即可改變影片的風格和環境。
視訊之間的無縫連接
另外,還可以利用Sora在兩個不同的影片之間創造平滑的過渡效果,即使這兩個影片的主題和場景完全不同。
在下面的demo中,中間的影片就實現了從左側到右側影片的平滑過渡。
一個是城堡,一個是雪中小屋,非常自然地融入一個畫面中。
湧現的模擬能力
隨著大規模訓練的深入,可以發現視訊模型展現了許多令人興奮的新能力。
Sora利用這些能力,能夠在不需要專門針對3D空間、物體等設定特定規則的情況下,就模擬出人類、動物以及自然環境的某些特徵。
這些能力的出現,完全得益於模型規模的擴大。
3D空間的真實感
Sora能創造出帶有動態視角變化的視頻,讓人物和場景元素在三維空間中的移動,看起來十分自然。
如下,一對情侶漫步在雪天中的東京,影片的生成和真實的運鏡效果大差不差了。
再例如,Sora擁有更遼闊的視野,生成山水風景與人徒步爬山的視頻,有種無人機拍攝出的巨制趕腳。
影片的一致性和物體的持續存在
在產生長影片時,保持場景和物件隨時間的連續性一直是個挑戰。
Sora能夠較好地處理這個問題,即便在物體被遮蔽或離開畫面時,也能保持其存在感。
以下範例中,窗台前的花斑狗,即便中途有多個路人經過,它的樣子仍保持一致。
例如,它可以在一個影片中多次展示同一個角色,而且角色的外觀在整個影片中保持一致。
賽博風格的機器人,從前到後旋轉一圈,都沒有跳幀。
與世界的互動
甚至,Sora能模擬出影響世界狀態的簡單行為。
例如,畫家畫的櫻花樹,水彩紙上留下了持久的筆觸。
又或是,人吃漢堡時留下的咬痕清晰可見,Sora的生成符合物理世界的規則。
數位世界的模擬
Sora不僅能模擬現實世界,還能夠模擬數位世界,例如電玩遊戲。
以「Minecraft」為例,Sora能夠在控制玩家角色的同時,以高度逼真的方式渲染遊戲世界和動態變化。
而且,只要透過簡單的提示,如提及“Minecraft”,Sora就能展現這些能力。
這些新能力顯示出,持續擴大視訊模型規模是一個極有希望的方向,讓模型朝著精準模擬物理世界和數位世界、以及其中的生物和物體的高級模擬器發展。
限制
當然,作為一個模擬器,Sora目前還存在著不少的限制。
例如,它雖然能模擬一些基礎物理互動,例如玻璃的碎裂,但還不夠精確。
模擬吃食物的過程,也不總是能準確反映物體狀態的改變。
在網站首頁上,OpenAI詳細列出了模型的常見問題,例如在長影片中出現的邏輯不連貫,或者物體會無緣無故地出現。
最後,OpenAI表示,Sora目前所展現出的能力,證明了不但提升視訊模式的規模是個令人振奮的方向。
沿著這個方向走下去,或許有一天,世界模型就會應運而生。
網友:未來遊戲動嘴做
OpenAI給出眾多的官方演示,看得出Sora似乎可以為更逼真的遊戲生成鋪路——僅憑文字描述就能生成程式遊戲。
這既令人興奮,又令人恐懼。
FutureHouseSF的聯合創始人猜測,“也許Sora可以模擬我的世界。也許下一代遊戲機將是“Sora box”,遊戲將以2-3段文字的形式發布”。
OpenAI技術人員Evan Morikawa稱,「在OpenAI發布的Sora影片中,如下的影片讓我大開眼界。透過經典渲染器渲染這個場景是非常困難的。Sora模擬物理的方式和我們不同。它肯定仍然會出錯,但是我之前沒有預測到它能做得這麼逼真」。
有網友稱,「人們沒有把『每個人都會成為電影製作人』這句話當一回事」。
我在15分鐘內製作了這部20年代的預告片,使用了OpenAI Sora的片段,David Attenborough在Eleven Labs上的配音,並在iMovie上從YouTube上採樣了一些自然音樂。
還有人稱,「5年後,你將能夠生成完全沉浸式的世界,並即時體驗它們,「全息甲板」即將變成現實」!
有人甚至表示,自己完全被Sora的AI影片生成的出色效果驚呆了。
「它讓現有的視訊模型看起來像是愚蠢的玩具。每個人都將成為一名電影製作人」。
「新一代電影製作人即將與OpenAI的Sora一起湧現。再過10年,這將是一場有趣的比賽」!
「OpenAI的Sora暫不會取代好萊塢。它將為好萊塢以及個人電影製作者和內容創作者,帶來巨大的推動力。
想像一下,只要3人團隊,就能在一週內,完成一部120分鐘的A級長片的初稿創作和觀眾測試。這就是我們的目標」。
參考資料:
https://openai.com/research/video- Generation-models-as-world-simulators?ref=upstract.co