OpenAI的Sora視訊生成模型也能用來渲染電玩遊戲
OpenAI 新推出的首個視頻生成模型- 視頻生成模型索拉(Sora)可以完成一些真正令人印象深刻的視頻生成壯舉。不過,至少從今天晚上發表的一篇技術論文來看,這個模型比OpenAI 最初想像的還要厲害。
這篇題為《作為世界模擬器的視頻生成模型》(Video generation models as world simulators)的論文由多位OpenAI 研究人員共同撰寫,揭開了Sora 架構關鍵方面的神秘面紗–例如,Sora 可以生成任意解析度和長寬比(最高1080p)的影片。根據論文所述,Sora 能夠執行一系列影像和影片編輯任務,從創建循環影片、向前或向後延伸影片到更改現有影片的背景。
但最吸引筆者的還是Sora”類比數位世界”的能力,OpenAI 的合著者如是說。在一次實驗中,OpenAI 將Sora 放到Minecraft 上,讓它在控制玩家的同時渲染世界及其動態(包括物理)。
Sora 在Minecraft 中控制一名玩家,並渲染電玩世界,請注意,顆粒感是由視訊到GIF 的轉換工具造成的,而不是Sora。圖片來源:OpenAIOpenAI
那麼,Sora 是如何做到這一點的呢?正如NVIDIA 高級研究員Jim Fan(透過Quartz)所說,與其說Sora 是一個創意引擎,不如說它是一個”資料驅動的實體引擎”。它不僅能產生單張照片或視頻,還能確定環境中每個物體的物理特性,並根據這些計算結果渲染照片或視頻(或互動式3D 世界,視情況而定)。
合著者寫道:”這些功能表明,繼續擴展視頻模型是開發物理和數位世界以及其中的物體、動物和人的高能力模擬器的一條大有可為的途徑。”
現在,Sora在電玩領域也有其通常的限制。此模型無法準確模擬玻璃碎裂等基本互動的物理過程。即使在可以建模的互動中,Sora 也經常出現不一致的情況,例如在渲染一個人吃漢堡時,卻無法渲染漢堡上的咬痕。
不過,如果我沒看錯的話,Sora 似乎可以為更逼真(甚至可能是逼真)的程式生成遊戲鋪平道路。這既令人興奮,又令人恐懼(考慮到Deepfake的影響)–這也許就是為什麼OpenAI 選擇暫時將Sora 關在一個非常有限的存取程式後面的原因。