48個文生影片+技術報告揭秘OpenAI最強影片GPT
今日凌晨,OpenAI推出首款文生影片大模型Sora。模型能根據提示詞生成長達1分鐘的視頻,或擴展生成的視頻使其更長,同時視覺品質相當驚艷。相較於以往的影片模型,Sora的亮點非常明顯,不僅對文字理解更深刻,可以準確地呈現提示詞,而且能在一個生成的影片中創建多個鏡頭,準確地保留角色和視覺風格。
尤其值得一提的是,Sora在細節處理上做得非常出挑,能夠理解複雜場景中不同元素之間的物理屬性及其關係,正確呈現它們在物理世界中的存在方式。
除了支援文字指令輸入外,該模型支援生成影像,也支援將現有靜止影像變成視頻,能對現有視頻進行擴展、將兩個視頻銜接並填充缺失的畫面。
其3D模擬能力非常突出,無論是製作短影片、動畫、電影畫面,或是渲染電玩遊戲,Sora都展現了令人期待的落地前景。
為了全方位展示Sora的水平,OpenAI一口氣放出了48個用Sora直接生成、未經修改、長度不等(9秒~60秒)的影片。下文附有48個影片的完整展示,火眼金睛的讀者朋友們可以研究下這些影片的準確程度,或是從專業上找找bug。
OpenAI將這個大模型稱作是“能夠理解和模擬現實世界的模型的基礎”,相信其能力“將是實現AGI的重要里程碑”。其技術報告今日剛新鮮出爐:
技術報告指示: https://openai.com/research/video-generation-models-as-world-simulators
一、Sora技術拆解:60秒影片、理解力強大、一次預見多幀
OpenAI首個文生影片大模式Sora是一個在可變持續時間、解析度、寬高比的影片和影像上聯合訓練的文字條件擴散模型。
與GPT模型類似,Sora使用Transformer架構,擴展性很強大,能一次生成時長1分鐘的視頻,或者擴展生成的視頻使其更長。
隨著訓練計算量增加,樣本品質顯著提高。
具體來看,該模型能產生具有多個角色、特定類型的運動以及精確的主題和背景細節的複雜場景。
透過賦予模型一次多幀的預見能力,OpenAI團隊解決了一個具有挑戰性的問題,即確保一個主題即使暫時消失在視野之外也保持不變。
過去的影像和影片生成方法通常是調整大小,裁剪或修剪影片到標準尺寸——例如,4秒影片、256×256解析度。而OpenAI發現在原始大小的資料上進行訓練提供了一些好處:
(1)取樣的彈性: Sora可以取樣寬螢幕1920x1080p影片、垂直1080×1920影片以及介於兩者之間的所有影片。這讓Sora可直接以不同裝置的原始寬高比為其創建內容。它還支援在生成全解析度的內容之前,以較小的尺寸快速創建內容原型——所有內容都使用相同的模型。
(2)改進框架和構圖: OpenAI透過經驗發現,在影片的原始長寬比上進行訓練可以改善構圖和框架。研究團隊將Sora與其模型的一個版本進行比較,該版本將所有訓練影片裁切為方形。在正方形裁切(左圖)上訓練的模型有時會產生僅部分顯示主體的影片。相比之下,來自Sora(右圖)的影片有改進的畫面。
此外,Sora文生視訊大模型具備以下特色:
1.強大的語言理解能力:訓練文字到影片生成系統需要大量帶有相應文字說明的影片。 OpenAI將DALL·E 3中介紹的字幕重配技術(Recaptioning)應用到影片中,首先訓練一個高度描述性的字幕模型,然後使用它為其訓練集中的所有影片產生文字字幕。 OpenAI發現,對高度描述性的視訊字幕進行訓練可提高文字保真度以及影片的整體品質。與DALL·E 3類似,研究團隊也利用GPT將簡短的使用者提示轉換為更長的詳細字幕,並將其發送到視訊模型。這使得Sora能準確地按照使用者提示產生高品質的影片。
2、支援現有的圖像或視訊輸入:此功能使Sora能夠執行廣泛的圖像和視訊編輯任務——創建完美的循環視訊、動畫靜態圖像、向前或向後擴展視訊等。例如,基於DALL·E 3圖像生成視頻,從一個生成的視頻片段開始向前/向後擴展視頻,編輯轉換視頻的風格/環境,將兩個輸入視頻無縫銜接在一起。
3.影像生成功能:研究團隊透過在一個時間範圍為一幀的空間網格中排列高斯雜訊區塊來實現這一點。此模型可產生可變大小的影像,最高可達2048 × 2048解析度。
4.新興的模擬能力: OpenAI發現視訊模型在大規模訓練時表現出許多有趣的突發能力。這些功能使Sora能夠從現實世界中模擬人、動物和環境的某些方面。 Sora可以產生具有動態攝影機運動的影片。隨著攝影機的移動和旋轉,人物和場景元素在三維空間中始終如一地移動。
Sora經常能夠有效地為短期和長期依賴關係建模,可以在單一樣本中產生相同角色的多個鏡頭,在整個影片中保持其外觀一致。這個模型有時可以用簡單的方式模擬影響世界狀態的行為,例如,畫家可以在畫布上留下新的筆觸,隨著時間的推移,或者一個人吃漢堡時留下咬痕。
在類比數位世界方面,Sora能夠模擬人工流程,例如電玩遊戲,可在高保真度渲染世界及其動態的同時,用基本策略控制《我的世界》中的玩家。
這些功能表明,視訊模型的持續擴展是發展物理和數位世界以及生活在其中的物體、動物和人的高性能模擬器的一條有希望的道路。
OpenAI從大語言模型獲得靈感,大語言模型的成功部分歸功於tokens優雅地統一了文字程式碼、數學及各種自然語言的不同模式。 Sora研究則考慮到讓視覺資料的生成模型繼承這些優點。
先前視覺patch已被證明是視覺資料模型的有效表示。 OpenAI發現patch是一種高度可擴展且有效的表示形式,可用於在不同類型的影片和影像上訓練生成模型。
OpenAI將視訊轉換成patch,訓練了一個降低視覺資料維度的網絡,該網絡將原始視訊作為輸入並輸出在時間和空間上壓縮的潛在表示。 Sora在這個壓縮的潛在空間中接受訓練並隨後產生影片。 OpenAI也訓練了對應的解碼器模型。
給定一個壓縮的輸入視頻,研究團隊提取一系列時空patch,充當Transformer tokens,這種基於patch的表示使得Sora能對不同時長、寬高比、分辨率的視頻和圖像進行訓練。在推理時,可透過在適當大小的網格中排列隨機初始化的patches來控制生成影片的大小。
Sora是一個擴散模型;輸入一個雜訊patch,它被訓練來預測原始的「乾淨」patch。在這項工作中,OpenAI發現擴散Transformer可以作為視訊模型有效擴展。
二、48個影片Demo:動畫電影、逼真自然、魔幻大片
OpenAI一共放出了48個影片來展示Sora模型的強大之處。受網站上傳限制,下文主要以動圖形式來簡要呈現這些生成影片的部分視覺效果。
提示詞1:一個時髦的女人走在東京的街道上,到處都是溫暖的霓虹燈和生動的城市標誌。她穿著黑色皮夾克、紅色長裙、黑色靴子,拿著黑色皮夾。她戴著太陽眼鏡,塗著紅色的口紅。她走起路來自信而隨興。街道是潮濕和反光的,創造了一個彩色燈光的鏡子效果。許多行人走來走去。
提示詞2:幾隻巨大的長毛猛獁象穿過一片白雪覆蓋的草地,它們長長的毛茸茸的皮毛在風中輕拂,遠處白雪覆蓋的樹木和戲劇性的雪山,午後的光線與縷縷的雲和遠處的太陽創造了溫暖的光芒,低相機的視角是驚人的,捕捉了美麗的攝影,景深的大型毛茸茸的哺乳動物。
提示詞3:這是一部電影預告片,講述了30歲的太空人戴著紅色羊毛針織摩托車頭盔的冒險經歷,藍天,鹽沙漠,電影風格,用35毫米膠片拍攝,色彩鮮豔。
提示詞4:無人機拍攝的海浪沖擊著大蘇爾加雷角海灘上崎嶇的懸崖。藍色的海水拍打著白色的波浪,夕陽的金色光芒照亮了岩石海岸。遠處有一座小島,島上有一座燈塔,懸崖邊長滿了綠色的灌木叢。從公路到海灘的陡峭落差是一個戲劇性的壯舉,懸崖的邊緣突出在海面上。這是一幅捕捉到海岸原始美景和太平洋海岸公路崎嶇景觀的景色。
提示詞5:動畫場景特寫了一個毛茸茸的矮個子怪物跪在融化的紅燭旁。美術風格是3D和現實的,重點是照明和紋理。這幅畫的氣氛是一種驚奇和好奇,因為怪物睜大眼睛,張開嘴巴凝視著火焰。它的姿勢和表情傳達了一種天真和頑皮的感覺,好像它是第一次探索周圍的世界。暖色和戲劇性燈光的使用進一步增強了影像的舒適氛圍。
提示詞6:一個華麗渲染的珊瑚礁紙工藝品世界,到處都是五顏六色的魚和海洋生物。
提示詞7:這個維多利亞冠鴿的特寫展示了它引人注目的藍色羽毛和紅色胸部。它的羽冠是由精緻的花邊羽毛製成的,而它的眼睛是醒目的紅色。鳥的頭微微向一側傾斜,給人一種帝王和威嚴的印象。背景是模糊的,吸引人們注意到這隻鳥引人注目的外表。
提示詞8:兩艘海盜船在一杯咖啡中航行時相互爭鬥的逼真特寫影片。
提示詞9:一個20多歲的年輕人坐在天空的一片雲上讀書。
提示詞10:淘金熱時期加州的歷史鏡頭
提示詞11:一個玻璃球的近景,裡面有一個禪宗花園。球體中有一個小矮人正在耙花園,並在沙上創造圖案。
提示詞12:一個24歲的女人眨著眼睛的極端特寫,站在馬拉喀什的神奇時刻,電影膠片拍攝,70mm,景深,生動的色彩,電影感。
提示詞13:一隻卡通袋鼠跳迪斯可。
提示詞14:一個美麗的自製視頻,展示了2056年尼日利亞拉各斯的人們。用手機相機拍攝的。
提示詞15:一個培養皿,裡面長著竹林,小熊貓在裡面跑來跑去。
提示詞16:攝影機圍繞著一大堆老式電視旋轉,這些電視播放著不同的節目——20世紀50年代的科幻電影、恐怖電影、新聞、靜態、70年代的情境喜劇等,背景設在紐約博物館的一個大型畫廊裡。
提示詞17:一個小的、圓的、毛茸茸的、有一雙大而富有表現力的眼睛的生物探索了一個充滿活力的魔法森林的3D動畫。這種動物是兔子和松鼠的異想天開的混合體,有著柔軟的藍色皮毛和濃密的條紋尾巴。它沿著波光粼粼的小溪跳躍,驚訝地睜大了眼睛。森林裡充滿了神奇的元素:發光和變色的花朵,紫色和銀色葉子的樹木,以及像螢火蟲一樣的小浮動燈。這隻生物停下來和一群在蘑菇圈周圍跳舞的小仙女嬉戲。這隻生物敬畏地仰望著一棵巨大的、發光的樹,這棵樹似乎是森林的中心。
提示詞18:攝影機跟在一輛黑色車頂架的白色復古SUV後面,它在陡峭的山坡上沿著松年輪繞的陡峭土路加速行駛,灰塵從輪胎上揚起,陽光照在越野車上,在土路上加速行駛,在現場投下溫暖的光芒。這條土路彎彎曲曲地延伸到遠處,看不到其他的汽車或車輛。道路兩旁的樹木都是紅杉,點綴著一片片綠色植物。從後面看到的汽車跟隨曲線輕鬆,使它看起來好像是在崎嶇不平的地形上行駛。土路本身被陡峭的丘陵和山脈包圍,上面是清澈的藍天和縷縷的雲。
提示詞19:火車在東京郊區行駛時,車窗上的倒影。
提示詞20:一架無人機攝影機環繞著一座美麗的歷史悠久的教堂,這座教堂建在阿馬爾菲海岸的岩石上,這張照片展示了歷史和宏偉的建築細節,分層的小路和露台,海浪撞擊著下面的岩石,俯瞰著意大利阿馬爾菲海岸的海岸水域和丘陵景觀,遠處的幾個人在露台上散步,欣賞著壯觀的海景。下午溫暖的陽光為現場創造了一種神奇而浪漫的感覺,美麗的攝影捕捉了令人驚嘆的景色。
提示詞21:一隻巨大的橘色章魚在海底休息,與沙質和岩石地形融為一體。它的觸手在身體周圍展開,眼睛是閉著的。章魚沒有意識到一隻帝王蟹正從岩石後面向它爬來,它的爪子抬起,準備攻擊。這種螃蟹是棕色的、多刺的,有長腿和觸角。這個場景是從廣角拍攝的,展示了海洋的廣闊和深度。海水清澈湛藍,陽光透過來。鏡頭銳利,動態範圍大。章魚和螃蟹是焦點,背景稍微模糊,創造了景深效果。
提示詞22:一群紙飛機在茂密的叢林中飛舞,像候鳥一樣在樹木之間穿梭。
提示詞23:一隻貓叫醒了正在睡覺的主人,要求吃早餐。主人試著忽略貓,但貓嘗試了新的策略,最後主人從枕頭下拿出了一個秘密的零食,讓貓多待一會兒。
提示詞24:基納巴坦幹河上的婆羅洲野生動物。
提示詞25:有中國龍的中國農曆新年慶祝影片。
提示詞26:參觀藝廊,欣賞許多風格各異的精美藝術品。
提示詞27:美麗、白雪皚皚的東京城市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟著幾個人享受美麗的雪天,在附近的攤位上購物。絢麗的櫻花花瓣隨著雪花在風中飛舞。
提示詞28:這是一幅定格動畫,描繪了一朵花從郊區房子的窗台上長出來。
提示詞29:賽博龐克設定的機器人生活故事。
提示詞30:極致特寫一個60歲、頭髮鬍子花白的男人,在深度思考宇宙歷史,他坐在一家巴黎的咖啡館,穿著一件羊毛外套西裝外套和一件襯衫,戴著一件棕色的貝雷帽、眼鏡,有一個非常專業的外表,結束時他有了一個微妙的、封閉式的笑容,好像找到了答案,神秘生活,燈光非常電影化,金色燈光和巴黎的街道和城市作為背景,景深,電影感,35mm膠卷。
提示詞31:一個美麗的剪影動畫展示了一隻狼對著月亮嚎叫,感到孤獨,直到它找到了它的族群。
提示詞32:紐約市像被淹沒的亞特蘭提斯。魚、鯨魚、海龜和鯊魚遊過紐約的街道。
提示詞33:一窩黃金獵犬小狗在雪地玩耍。他們的頭從雪中探出頭來,身上覆蓋著雪。
提示詞34:一個人跑步的步印場景,電影膠片,35mm拍攝。
提示詞35:五隻小灰狼在一條偏僻的礫石路上嬉戲追逐,周圍長滿了草。幼崽們又跑又跳,互相追逐,互相撕咬、玩耍。
提示詞36:籃球穿過籃框然後爆炸。
提示詞37:考古學家在沙漠中發現了一把普通的塑膠椅子,他們小心翼翼地挖掘並撣去了上面的灰塵。
提示詞38:一位頭髮梳得整整齊齊的白髮老奶奶站在一張木製餐桌前,身後是一個色彩斑斕的生日蛋糕,上面插著無數的蠟燭,她的眼睛裡閃爍著幸福的光芒,臉上流露出一種純粹的快樂和幸福。她身體前傾,輕輕地吹熄了蠟燭,蛋糕上有粉紅色的糖霜和糖屑,蠟燭也不再閃爍,老奶奶穿著一件淺藍色的襯衫,上面裝飾著花卉圖案,可以看到幾個快樂的朋友和家人坐在桌子旁慶祝,背景虛化。這個場景拍得很漂亮,像電影一樣,展示了老奶奶和餐廳的3/4視圖。暖色調和柔和的燈光改善了心情。
提示詞39:鏡頭直接對著義大利布拉諾五顏六色的建築。一隻可愛的斑點狗從一樓的窗戶往外看。許多人沿著建築物前的運河街道散步或騎自行車。
提示詞40:一隻可愛快樂的水獺穿著黃色救生衣自信地站在衝浪板上,沿著綠松石般的熱帶水域騎行,附近是鬱鬱蔥蔥的熱帶島嶼,3D數字渲染藝術風格。
提示詞41:這張變色龍的特寫照片展示了它驚人的變色能力。背景是模糊的,吸引人們注意到動物引人注目的外表。
提示詞42:一隻柯基在熱帶毛伊島拍攝影片。
提示詞43:一隻白橙相間的虎斑貓歡快地在茂密的花園裡竄來竄去,好像在追逐什麼東西。它的眼睛睜得大大的,歡快地向前跑著,一邊走一邊掃視樹枝、花朵和樹葉。這條小路很窄,因為它在所有的植物之間穿行。這個場景是從地面的角度拍攝的,緊跟在貓後面,給人一個低而親密的視角。影像是電影般的暖色調和顆粒紋理。樹葉和植物之間分散的日光形成了溫暖的對比,突出了貓的橙色皮毛。這張照片清晰銳利,景深淺。
提示詞44:藍色聖托里尼鳥瞰圖,展示了白色基克拉迪建築和藍色圓頂的驚人建築。火山口的景色令人嘆為觀止,燈光營造出美麗、寧靜的氛圍。
提示詞45:工人、設備和重型機械密集的建築工地的傾斜。
提示詞46:一個巨大的、高聳的雲在一個人的形狀在地球上隱約出現。雲人把閃電射向地面。
提示詞47:一隻薩摩耶犬和一隻金毛獵犬在夜晚的霓虹燈城市裡嬉戲。附近建築物發出的霓虹燈在它們的皮毛上閃閃發光。
提示詞48: Glenfinnan高架橋是英國蘇格蘭的一座歷史悠久的鐵路橋,橫跨馬萊格鎮和威廉堡之間的西部高地線。一列蒸汽火車駛離大橋,在拱形高架橋上行駛,這是一幅令人驚嘆的景象。風景點綴著鬱鬱蔥蔥的綠色植物和岩石山脈,為火車之旅創造了風景如畫的背景。天空湛藍,陽光明媚,這是個探索這個雄偉景點的美好日子。
三、不足:難以模擬複雜場景,混淆提示詞的空間細節
OpenAI坦言,目前Sora目前有許多局限性,可能難以準確地模擬複雜場景的物理屬性,例如玻璃破碎;也可能無法理解因果關係的具體實例。例如,一個人咬了一口餅乾,但之後餅乾上可能沒有咬痕。
該模型還可能混淆提示的空間細節,例如,混淆左和右,並且可能難以精確描述隨時間發生的事件,例如跟隨特定的攝影機軌跡。
OpenAI強調說,在將Sora應用於OpenAI的產品之前,他們將採取一些重要的安全措施,包括與紅隊專家合作進行對抗性測試、構建檢測分類器等工具來幫助檢測誤導性內容、計劃在未來包含C2PA元資料等。
除了開發新技術為部署做準備外,OpenAI還利用了其為使用DALL·E 3的產品所建置的現有安全方法,這些方法也適用於Sora。
Sora文生影片大模型的研究由Bill Peebles、Tim Brooks領導,系統領導者是Connor Holmes。以下人員均參與了本研究的貢獻。
OpenAI也對下述人員致以特別感謝:
結論:OpenAI終於下場,影片生成模型迎接重磅玩家!
隨著OpenAI首款文生視訊大模型Sora推出,去年已經如火如荼展開的文生視訊大模型大戰,今年儼然要透過捲向更強性能,開啟落地之年。
其研究團隊相信,Sora今天所擁有的能力表明,視訊模型的持續擴展是一條很有前途的道路,可以開發出實體和數位世界的模擬器,以及生活在其中的物體、動物和人類。
OpenAI承諾將與世界各地的政策制定者、教育工作者和藝術家接觸,了解他們的擔憂,並確定這項新技術的積極用例。
儘管進行了廣泛的研究和測試,OpenAI團隊無法預測人們使用其技術的所有有益方式,也無法預測人們濫用它的所有方式。該團隊相信隨著時間的推移,從現實世界的使用中學習是創建和發布越來越安全的AI系統的關鍵組成部分。