奧爾特曼選取網友提示詞用OpenAI新款大模型Sora生成視頻
OpenAI再次拋出一枚深水炸彈,發布了首個文生視頻模型Sora。據介紹,Sora可以直接輸出長達60秒的視頻,並且包含高度細緻的背景、複雜的多角度鏡頭,以及富有情感的多個角色。目前官網上已經更新了48個影片demo,在這些demo中,Sora不僅能準確呈現細節,還能能理解物體在物理世界中的存在,並產生具有豐富情感的角色。該模型還可以根據提示、靜止圖像甚至填補現有影片中的缺失影格來產生影片。
一位時髦女士漫步在東京街頭,周圍是溫暖閃爍的霓虹燈和動態的城市標誌。
一名年約三十的太空人戴著紅色針織摩托車頭盔展開冒險之旅,電影預告片呈現其穿梭於藍天白雲與鹽湖沙漠之間的精彩瞬間,獨特的電影風格、採用35毫米膠片拍攝,色彩鮮豔。
豎屏超近景視角下,這隻蜥蜴細節拉滿:
OpenAI表示,該公司正在教導人工智慧理解和模擬運動中的物理世界,目標是訓練出能夠幫助人們解決需要與現實世界互動的問題的模型。在此,隆重推出文字到影片模型——Sora。 Sora可以產生長達一分鐘的視頻,同時確保視覺品質和符合用戶提示的要求。
OpenAI創辦人兼CEOSam Altman(奧爾特曼)太會玩了,讓網友評論回覆Prompt(大語言模型中的提示詞),他選一些用Sora生成視頻。截至發稿,奧爾特曼連發多條根據網友提示詞生成的視頻,包括不同動物在海上進行自行車比賽、發布自製面疙瘩烹飪教學視頻的祖母、兩隻金毛犬在山頂做播客、日落時分火星上進行的一場無人機競賽等。但這些影片時長為9秒至17秒不等。
技術層面,Sora採用擴散模型(diffusion probabilistic models)技術,基於Transformer架構,但為了解決Transformer架構核心組件注意力機制的長文本、高解析度影像處理等問題,擴散模型用可擴展性更強的狀態空間模型(SSM)主幹取代了傳統架構中的注意力機制,可以使用更少的算力,產生高解析度影像。先前Midjourney與Stable Diffusion的影像與視訊產生器同樣基於擴散模型。
同時,Sora也存在著一定的技術不成熟之處。 OpenAI表示,Sora可能難以準確模擬複雜場景的物理原理,可能無法理解因果關係,可能混淆提示的空間細節,可能難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌跡等。
根據OpenAI關於Sora的技術報告《Video generation models as world simulators》(以下簡稱報告),跟大語言模型一樣,Sora也有湧現的模擬能力。
OpenAI方面在技術報告中表示,並未將Sora單純視作視頻模型,而是將視頻生成模型作為“世界模擬器”,不僅可以在不同設備的原生寬高比直接創建內容,而且展示了一些有趣的模擬能力,如3D一致性、長期一致性和物件持久性等。目前Sora能夠生成一分鐘的高保真視頻,OpenAI認為擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的途徑。
報告指出,OpenAI研究了在視訊資料上進行大規模訓練的生成模型。具體而言,聯合訓練了文字條件擴散模型,該模型可處理不同持續時間、解析度和長寬比的影片和圖像。 OpenAI利用了一種基於時空補丁的視訊和圖像潛在程式碼的變壓器架構。最大的模型Sora能夠產生一分鐘的高保真影片。結果表明,擴展視訊生成模型是建立通用物理世界模擬器的有前途的途徑。
報告重點介紹了OpenAI將各類型視覺資料轉化為統一表示的方法,這種方法能夠對生成模型進行大規模訓練,並對Sora的能力與限制進行定性評估。先前大量的研究已經探索了使用多種方法對視訊資料進行生成建模,包括循環網路、生成對抗網路、自回歸轉換器和擴散模型。這些研究往往只關注狹窄類別的視覺數據、較短的影片或固定大小的影片。而Sora是一個通用的視覺資料模型,它能夠產生跨越不同時長、縱橫比和解析度的影片和影像,甚至能夠產生長達一分鐘的高清影片。
OpenAI從大型語言模型中汲取靈感,這些模型透過訓練網路規模的資料來獲得通用能力。 LLM範式的成功在某種程度上得益於代幣的使用,這些代幣巧妙地統一了文字的不同模式——程式碼、數學和各種自然語言。在這項工作中,OpenAI考慮視覺資料的生成模型如何繼承這些優勢。雖然LLM有文字令牌,但Sora有視覺補丁。之前已經證明,補丁是視覺資料模型的有效表示。補丁是一種高度可擴展且有效的表示,可用於在多種類型的影片和圖像上訓練生成模型。
Sora支援採樣多種解析度視頻,包括1920x1080p的寬螢幕視頻、1080×1920的垂直螢幕視頻以及介於兩者之間的所有解析度。這使得Sora能夠直接以原生縱橫比為不同的裝置創建內容。同時,它還允許在生成全解析度內容之前,使用相同的模型快速製作較小尺寸的內容原型。