OpenAI Sora:「原始版」世界模擬器我們離駭客任務還有多遠?
春節假期接近尾聲。面對持續進攻的Google等對手,OpenAI堪稱放出了自ChatGPT有史以來最強的大招——Sora。 Sora是OpenAI自研的文生視頻擴散模型,可產生不同長寬比和解析度的高品質、高保真視頻,長度可達1分鐘。在一些產業觀察家眼裡,Sora不僅性能遙遙領先競爭對手,甚至可以被視為一款「世界模擬器」。
Sora:大力出奇蹟的產物
剛發布Gemini 1.5 Pro的谷歌,沒有嚐到半點甜頭。剛剛官方宣布更新幾個小時,OpenAI就拿著Sora來炸場,和Gemini有關的消息,基本上都被埋在了鋪天蓋地的Sora新聞流裡。
根據一些觀察家推測,OpenAI可能早在去年3月就已經完成了Sora的開發,所以才能在公關戰中穩穩地佔據主動權。
Sora到底優秀在哪裡?簡單來說,它就是一個「大力出奇蹟」的產物。
Sora結合了擴散模型(DALL-E3)和轉換器架構(ChatGPT)。透過這種組合,該模型可以像ChatGPT處理文字一樣處理影片(即影像幀的時間序列)。
最令人印象深刻的特點是它能夠逼真地模擬物理世界(OpenAI 將其描述為「新興的模擬能力」)。在此之前,還沒有任何文字視訊模型能與之相媲美。
例如,Sora「可以在單一生成的影片中創建多個鏡頭,準確地體現人物和視覺風格」。它可以製作長達1分鐘的視頻,但你也可以隨心所欲地製作短視頻。可以製作不同解析度的垂直版、方形和水平影片。而且計算量越高,影片品質也會越高。
AI科學家、創業家賈佳亞在社群媒體上表示:Sora基於影片的三維結構分解壓縮,用不同分辨率,不同時長,不同場景的各類影片大量訓練diffusion model。在學術界連VIT的256*256的分辨率都沒法改的情況下,Sora直接用上了高清以及更大的分辨率,這沒幾千上萬張H100都不敢想像如何開始這個計畫。
Sora能夠學習真實世界的物理規則
OpenAI表示,Sora不僅能理解提示中出現的風格、場景、角色、物件和概念等,也能理解「這些事物在物理世界中是如何存在的」。
Sora透過海量視頻,以梯度下降的方式在神經參數中隱含地學習物理引擎。 Sora是可學習的模擬器,或稱為「世界模型」。亦即,Sora可能已經學會了一套隱含的物理規則,為視訊生成過程提供資訊。
毫無疑問,這是AI理解世界的關鍵一步。 OpenAI在部落格的最後寫道:Sora是能夠理解和模擬現實世界的模型的基礎,我們相信這種能力將成為實現AGI的重要里程碑。
在OpenAI的Dalle-3圖像生成器所使用的擴散模型版本和GPT-4基於變換器的引擎的支持下,Sora不僅能按照提示要求製作視頻,而且還能顯示出對電影技術的熟練掌握。
這就是說故事的天份。在另一部根據「渲染華麗的珊瑚礁紙藝世界,到處都是五顏六色的魚和海洋生物」的提示製作的影片中。該計畫的另一位研究員Bill Peebles指出,Sora透過拍攝角度和時機的選擇,創造了一種敘事的動力:
實際上有多個鏡頭的變化——這些變化不是拼接在一起的,而是由模型一次生成的。我們沒有告訴它要這麼做,它只是自動這麼做了。
Sora不僅能根據文字製作圖像和視頻,或將圖像和視頻轉換為其他視頻,而且還能以通用、可擴展的方式完成這些工作,這一點與競爭對手不同。
這種通用性和可擴展性促使人們預測人工智慧將顛覆好萊塢和整個電影製作。考慮到進步的速度,想像一下幾個月後人工智慧模型能夠製作出長達5或10分鐘的多場景、多角色複雜影片並不是什麼瘋狂的事情。
目前Sora還在接受安全檢查和對抗性測試,沒有正式發表。 OpenAI希望從「世界各地的政策制定者、教育工作者和藝術家」那裡收集回饋。他們還在開發一種檢測分類器來識別Sora製作的視頻,並研究如何防止錯誤訊息。
要讓文字影片威脅到真正的電影製作,恐怕還需要很長一段時間。你不可能把120個一分鐘長的Sora片段拼接成一部連貫的電影,因為模型不會以完全相同的方式對提示做出反應,因此無法確保輸出影片的連續性。
但時間限制並不妨礙Sora和類似的軟體顛覆TikTok、Reel和其他短視頻平台的生產方法。
一位研究者表示:要製作一部專業電影,你需要大量昂貴的設備,這種模式將使在社群媒體上製作影片的普通人有能力製作出非常高品質的內容。