OpenAI王炸模型引爆科技圈官方技術報告說了什麼?
馬斯克評OpenAI影片模型:人類認賭服輸,但AI增強的人類將創造出最好作品。這個模型究竟有哪些強大之處? OpenAI 2月16日凌晨發布了文生視頻大模型Sora,在科技圈引起一連串的震驚和感嘆,在2023年,我們見證了文生文、文生圖的進展速度,視頻可以說是人類被AI攻占最慢的一塊「處女地」。
而在2024年開年,OpenAI就發布了王炸文生視頻大模型Sora,它能夠僅根據提示詞,生成60s的連貫視頻,“碾壓”了行業目前大概只有平均“4s”的視頻生成長度。
為了方便理解,我們簡單總結了這個模型的強大:
1.文字到視頻生成能力:Sora能夠根據用戶提供的文本描述生成長達60S的視頻,這些視頻不僅保持了視覺品質,而且完整準確還原了用戶的提示語。
2.複雜場景與角色生成能力:Sora能夠產生包含多個角色、特定運動類型以及主題精確、背景細節複雜的場景。它能夠創造出生動的角色表情和複雜的運鏡,使得生成的影片具有高度的逼真性和敘事效果。
3.語言理解能力:Sora擁有深入的語言理解能力,能夠準確解釋提示並產生能表達豐富情感的角色。這使得模型能夠更好地理解用戶的文字指令,並在生成的影片內容中忠實地反映這些指令。
4.多鏡頭生成能力:Sora可以在單一生成的影片中創建多個鏡頭,同時保持角色和視覺風格的一致性。這種能力對於製作電影預告片、動畫或其他需要多視角展示的內容非常有用。
5、從靜態圖像生成視頻能力:Sora不僅能夠從文本生成視頻,還能夠從現有的靜態圖像開始,準確地動畫化圖像內容,或者擴展現有視頻,填補視頻中的缺失幀。
6.實體世界模擬能力:Sora展現了人工智慧在理解真實世界場景並與之互動的能力,這是朝著實現通用人工智慧(AGI)的重要一步。它能夠模擬真實物理世界的運動,如物體的移動和相互作用。
可以說,Sora的出現,預示著一個全新的視覺敘事時代的到來,它能夠將人們的想像轉化為生動的動態畫面,將文字的魔力轉化為視覺的盛宴。在這個由數據和演算法編織的未來,Sora正以其獨特的方式,重新定義我們與數位世界的互動。一反常態,OpenAI在模型公佈後的不久,就公佈了相關的技術Paper,我們第一時間「啃」了這篇技術報告,希望能夠幫助大家理解到底有哪些神奇的技術,讓Sora能夠有如此強大的魔力。
01 以下為OpenAI文生影片模型Sora官方技術報告
我們探索了利用視訊資料對生成模型進行大規模訓練。具體來說,我們在不同持續時間、解析度和縱橫比的影片和影像上聯合訓練了以文字為輸入條件的擴散模型。我們引入了一種transformer架構,該架構對視訊的時空序列包和圖像潛在編碼進行操作。我們最頂尖的模型Sora已經能夠生成最長一分鐘的高保真視頻,這標誌著我們在視頻生成領域取得了重大突破。我們的研究結果表明,透過擴大視訊生成模型的規模,我們有望建立出能夠模擬物理世界的通用模擬器,這無疑是一條極具前景的發展道路。
這份技術報告主要聚焦於兩大面向:首先,我們詳細介紹了一種將各類視覺資料轉化為統一表示的方法,從而實現了對生成式模型的大規模訓練;其次,我們對Sora的能力及其局限性進行了深入的定性評估。需要注意的是,本報告並未涉及模型的具體技術細節。
在過去的研究中,許多團隊已經嘗試使用遞歸網路、生成對抗網路、自回歸Transformer和擴散模型等各種方法,對視訊資料的生成式建模進行了深入研究。然而,這些工作通常僅限於較窄類別的視覺數據、較短的影片或固定大小的影片。相較之下,Sora作為一款通用的視覺資料模型,其卓越之處在於能夠產生跨越不同持續時間、縱橫比和解析度的影片和影像,甚至包括產生長達一分鐘的高清影片。
將可視資料轉換成資料包(patchs)
在可視資料的處理上,我們借鏡了大語言模型的成功經驗。這些模型透過對互聯網規模的資料進行訓練,獲得了強大的通用能力。同樣,我們考慮如何將這種優勢引入到可視資料的生成式模型中。大語言模型透過token將各種形式的文字程式碼、數學和自然語言統一起來,而Sora則透過視覺包(patchs)實現了類似的效果。我們發現,對於不同類型的影片和圖像,包是一種高度可擴展且有效的表示方式,對於訓練生成模型具有重要意義。
圖註:OpenAI專門設計的解碼器模型,它可以將產生的潛在表示重新映射回像素空間
在更高層次上,我們首先將視訊壓縮到一個低維度的潛在空間:這是透過對視訊進行時間和空間上的壓縮來實現的。這個潛在空間可以看作是一個「時空包」的集合,從而將原始視頻轉化為這些包。
視訊壓縮網絡
我們專門訓練了一個網絡,專門負責降低視覺資料的維度。這個網路接收原始視訊作為輸入,並輸出經過壓縮的潛在表示。 Sora模型就是在這個壓縮後的潛在空間中接受訓練,最後產生影片。此外,我們還設計了一個解碼器模型,它可以將生成的潛在表示重新映射回像素空間,從而產生可視的視訊或圖像。
時空包
當給定一個壓縮後的輸入影片時,我們會從中提取一系列的時空包,這些包被用作轉換token。這個方案不僅適用於視頻,因為視頻本質上就是由連續幀構成的,所以圖像也可以看作是單幀的視頻。透過這種基於套件的表示方式,Sora能夠跨越不同解析度、持續時間和縱橫比的影片和影像進行訓練。在推理階段,我們只需在適當大小的網格中安排隨機初始化的包,就可以控制生成影片的大小和解析度。
用於影片生成的縮放Transformers
Sora是一個擴散模型,它接受輸入的雜訊包(以及如文字提示等條件性輸入資訊),然後被訓練去預測原始的「乾淨」包。重要的是,Sora是一個基於擴散的轉換器模型,這種模型已經在多個領域展現了顯著的擴展性,包括語言建模、電腦視覺以及影像生成等領域。
在這項工作中,我們發現擴散轉換器在視訊生成領域同樣具有巨大的潛力。我們展示了不同訓練階段下,使用相同種子和輸入的影片樣本對比,結果證明了隨著訓練量的增加,樣本品質有著明顯的改善。
豐富的持續時間、解析度與縱橫比
過去,影像和影片產生方法常常需要將影片調整大小、裁剪或修剪至標準尺寸,如4秒、256×256解析度的影片。但Sora打破了這個常規,它直接在原始大小的資料上進行訓練,從而帶來了許多優勢。
採樣更靈活
Sora具備出色的採樣能力,無論是寬屏1920x1080p視頻、垂直1080×1920視頻,還是介於兩者之間的任何視頻尺寸,它都能輕鬆應對。這意味著Sora可以為各種裝置產生與其原始縱橫比完美匹配的內容。更令人驚嘆的是,即使在生成全解析度內容之前,Sora也能以較小的尺寸迅速創建內容原型。而所有這一切,都得益於使用相同的模型。
圖註:Sora可以為各種設備產生與其原始縱橫比完美匹配的內容
改進構圖與框架
我們的實驗結果顯示,在影片的原始縱橫比上進行訓練,能夠顯著提升構圖和框架的品質。為了驗證這一點,我們將Sora與一個將所有訓練影片裁切為方形的模型版本進行了比較。結果發現,在正方形裁切上訓練的模型有時會產生僅部分顯示主題的影片。而Sora則能呈現出更完美的幀,充分展現了其在影片生成領域的卓越表現。
圖註:將所有訓練影片裁切為方形的模型相比(左),Sora能呈現出更完美的幀
語言理解深化
為了訓練文字轉影片產生系統,需要大量有對應文字字幕的影片。為此,我們借鑒了DALL·E3中的re-captioning技術,並應用於視訊領域。首先,我們訓練了一個高度描述性的轉譯員模型,然後使用它為我們訓練集中的所有影片產生文字轉譯。透過這種方式,我們發現對高度描述性的影片轉譯進行訓練,可以顯著提高文字保真度和影片的整體品質。
同時,與DALL·E3類似,我們也利用GPT技術將簡短的使用者提示轉換為更長的詳細轉譯,並將其發送到視訊模型。這項創新使得Sora能夠精確地按照用戶提示產生高品質的影片。
圖片與影片提示
在上述所有結果和我們的演示中,你可能已經注意到了文字轉影片的範例。但Sora的功能遠不止於此,它還能接受其他類型的輸入提示,例如預先存在的影像或影片。這種多樣化的提示方式使Sora能夠執行廣泛的圖像和影片編輯任務,例如創建完美的循環影片、將靜態圖像轉化為動畫、向前或向後擴展影片等。
將DALL·E圖片變成動畫
值得一提的是,Sora還能在提供影像和提示作為輸入的情況下產生影片。下面展示的範例影片是基於DALL·E 2和DALL·E 3的影像產生的。這些範例不僅證明了Sora的強大功能,還展示了它在影像和影片編輯領域的無限潛力。
逼真的雲朵圖像生成視頻,上面寫著“SORA”;在一個華麗的歷史大廳裡,一股巨大的浪潮達到頂峰,並開始崩散,兩個衝浪者抓住時機,巧妙地在海浪表面飛馳
擴展生成視頻
Sora不僅具備產生影片的能力,更能在時間維度上實現向前或向後的無限擴展。以下三個影片便是從同一生成影片片段出發,逐步向後擴展的範例。儘管它們的起始部分各異,但結局卻出奇地一致。
這充分展現了Sora在時間擴展方面的強大功能,甚至能創造出無縫的無限循環影片。
影片到影片編輯
隨著擴散模型的發展,我們已經開發出多種方法來編輯基於文字提示的圖像和影片。在此,我們將其中一種名為SDEdit 32的技術應用於Sora。這項技術賦予了Sora轉換零拍攝輸入影片風格和環境的能力,為影片編輯領域帶來了革命性的變革。
視訊的無縫連接
更令人驚嘆的是,Sora還能在兩個截然不同的輸入影片之間實現無縫過渡。透過逐漸插入技術,我們能夠在具有完全不同主題和場景構圖的影片之間創造出流暢自然的過渡效果。
圖片生成能力
Sora的出色能力不止於數據處理和分析,它現在還能產生影像!這項創新功能的實現得益於獨特的演算法,該演算法在一個精確的時間範圍內,巧妙地在空間網格中排列高斯雜訊補丁。
值得一提的是,Sora的圖像生成功能不僅限於特定大小的圖像。它可以根據使用者需求,產生可變大小的影像,最高可達驚人的2048 × 2048解析度。
圖註:一個女人在秋天的特寫肖像,每個細節都被捕捉得淋漓盡致,淺景深的應用使得主體脫穎而出
圖註:充滿活力的珊瑚礁吸引了五顏六色的魚類和海洋生物
新的模擬能力
在大規模訓練過程中,我們發現視訊模型展現了許多令人興奮的新能力。這些功能使得Sora能夠模擬現實世界中的人物、動物和環境等某些面向。值得注意的是,這些屬性的出現並沒有依賴任何明確的3D建模、物體辨識等歸納偏差,而是純粹透過模型的尺度擴展而自然湧現的。
3D一致性:在3D一致性方面,Sora能夠產生具有動態攝影機運動的影片。隨著相機的移動和旋轉,人物和場景元素在三維空間中始終保持一致的運動規律。
較長影片的連貫性和物件持久性:影片產生領域面對的一個重要挑戰是,在生成的較長影片中保持時空連貫性和一致性。 Sora,雖然不總是,但經常能夠有效地為短期和長期物體間的依賴關係建模。例如,在生成的影片中,人物、動物和物體即使在被遮蔽或離開畫面後,仍能被準確地保存和呈現。同樣地,Sora能夠在單一樣本中產生同一角色的多個鏡頭,並在整個影片中保持其外觀的一致性。
與世界互動:Sora有時也能以簡單的方式模擬影響世界狀態的行為。例如,畫家可以在畫布上留下新的筆觸。隨著時間的推移,一個人吃漢堡時也能在上面留下咬痕。
圖註:Sora能以簡單的方式模擬影響世界狀態的行為
模擬數位世界:Sora也能夠模擬人工過程,例如電玩遊戲。它可以在高保真度渲染世界及其動態的同時,用基本策略控制《我的世界》中的玩家。這些功能都無需額外的訓練資料或調整模型參數,只需向Sora提示「我的世界」即可實現。
這些新能力表明,視訊模型的持續擴展為開發高性能的實體和數位世界模擬器提供了一條充滿希望的道路。透過模擬生活在這些世界中的物體、動物和人等實體,我們可以更深入地理解現實世界的運作規律,並發展出更逼真、自然的視訊生成技術。
局限性與展望
儘管Sora在模擬能力方面已經取得了顯著的進展,但它目前仍然存在許多限制。例如,它不能準確地模擬許多基本相互作用的物理過程,如玻璃破碎等。此外,在某些互動場景中,例如吃東西時,Sora並不總是能產生正確的物件狀態變化。我們在發布頁面中列舉了模型的其他常見故障模式,包括在長時間樣本中發展的不一致性或某些物件不受控制的出現等。
然而,我們相信隨著技術的不斷進步和創新,Sora所展現的能力預示著視訊模型持續擴展的巨大潛力。未來,我們期待看到更先進的視訊生成技術,能夠更準確地模擬現實世界中的各種現象和行為,並為我們帶來更逼真、更自然的視覺體驗。
02 圈內人如何看Sora?
最後再來看看各位科技大牛和內容產業從業人員如何評價Sora?
馬斯克評OpenAI影片模型:人類認賭服輸,但AI增強的人類將創造出最好作品
OpenAI週四發布了首個影片生成模型Sora。馬斯克的前女友格萊姆斯發布了一連串帖子,討論這項新技術對電影以及更廣泛的藝術創作的影響。
馬斯克在其中一條帖子下回應稱:“AI增強的人類將在未來幾年裡創造出最好的作品。”
值得注意的是,馬斯克和格萊姆斯在過去大約半年時間裡一直在就他們三個子女的監護權問題對薄公堂。兩人之間在X平台上這次罕見的互動引發了人們對他們目前關係狀態的猜測。
稍早,一位X用戶分享了Sora生成的一名女子在東京街頭漫步的視頻,並評論稱:“OpenAI今天宣布了Sora,它使用混合擴散和變壓器模型架構生成長達1分鐘的視頻。他們似乎又領先了其他所有人1-2年。」另一位X用戶評論稱:“gg皮克斯。”
馬斯克回應:「gg人類。」(註:gg是網路遊戲用語「good (6.73, 0.11, 1.66%) games」的縮寫,主要用於遊戲結束後,輸贏雙方都可以用,但現在多由失敗方發出,表示認賭服輸、心服口服的意思。)在馬斯克貼文的留言區裡,還有用戶附和:「gg好萊塢」。
Jim Fan感嘆:Sora是一個數據驅動的實體引擎
英偉達人工智慧研究院Jim Fan表示「如果你還是把Sora當作DALLE那樣的生成式玩具,還是好好想想吧,這是一個數據驅動的物理引擎。」Jim Fan大神的言下之意是,我們不能忽略Sora背後,「世界模型」更進一步,AI已經可以讀懂物理規律。
YouTube大V :動畫師和3D藝術家的工作可能有危險了
YouTube大V Paddy Galloway感慨:「內容創作永遠改變了。這不是誇張。我在YouTube世界已經15年了,OpenAI剛剛展示的東西讓我說不出話來…」他認為,Sora將帶來以下這些改變:
●動畫師和 3D 藝術家的工作可能有危險了庫存素材網站將變得無關緊要
●任何人都可以立即擁有出色的B-roll(輔助鏡頭)
● 製作精美影片的門檻降至零
● 在一個每個人都能製作出美麗影片的世界裡,內容背後的「想法」和故事變得更加重要
● Sora將真正顛覆教育、影片論文和解說影片的細分市場
AI新創公司創辦人:五年後,你將能夠產生完全沉浸式的世界,並即時體驗它們
Takeoff AI是專注於AI Tools的創業公司,它的創辦人認為這項波OpenAI新技術的最大受益者可能是虛擬實境。 「在兩週內,我們連續有了蘋果(183.86, -0.29, -0.16%)的Vision Pro和OpenAI的Sora文本到視頻AI模型。五年之後,你將能夠產生完全沉浸式的世界,並實時體驗它們。Holodeck(應該是指今年火爆的掌機Steamdeck的虛擬現實版本)很快就要來了。”
除了這些技術上的猜測和對產業影響的正面預測外,也有老反對派指出Sora的潛在問題不那麼容易糾正。
Gary Marcus:Sora奇怪的物理故障可能不是數據中出現的
紐約大學教授Gary Marcus以其對AI領域的深刻見解和對現有技術的批判性思考而聞名,他的觀點和研究對AI社群產生了重要影響。他表示“Sora奇怪的物理故障(例如動物和人在人群中自發出現和消失)令人著迷:這些錯誤可能不是數據中出現的。這種小故障在某些方麵類似於LLM“幻覺”,即從有損壓縮中(大致)解壓縮產生的偽影,而不是來自這個世界的東西。”
而且這種錯誤在他看來是一種“與現實世界物理學的系統性偏差,可能很難糾正。”
不過此刻最悲傷的應該是Google,今天原本拿來翻盤用的Gemini1.5發布風頭完全被Sora壓過。作為AI界的汪峰,它對此沒有評論。