DeepMind最強「基礎世界模型」誕生單圖生1分鐘遊戲世界
DeepMind最新基礎世界模型Genie 2登場!只要一張圖,就能生成長達1分鐘的遊戲世界。從此,我們將擁有無限的具身智能體訓練資料。更有人驚呼:駭客任務來了。
就在剛剛,Google DeepMind的第二代大規模基礎世界模型Genie 2誕生了!
從此,AI可以產生各種一致性的世界,最長可玩1分鐘。
Google研究人員表示,相信Genie 2可以解鎖具身智能體的下一波能力。
從第一人稱的真實世界場景,到第三人稱的駕駛環境,Genie 2生成了一個720p的世界。
給定一幅影像,它就能模擬出世界動態,創造一個可透過鍵盤和滑鼠輸入的、可操作的一致環境。
具身智能體的潛力有多大?
在以下這個Imagen 3生成的世界中,研究者測試出最新的智能體是否可以遵循語言指令,走到紅門或藍門。
結果令人驚喜!
就這樣,現在我們擁有了一條通往無限環境的道路,來訓練和評估具身智能體了。
研究者創造了一個有3個拱門的世界後,Genie 2再次模擬了這個世界,讓團隊解決了任務。
對此,網友們紛紛表示讚歎:『這項工作實在是太棒了!今後,我們終於可以將開放式智能體與開放世界模型結合。我們正在朝著近乎無限的訓練資料體系邁進。 ‘
還有網友表示:『駭客任務』的世界,要來了!
為未來的通用智能體,產生無限多樣的訓練環境
作為基礎世界生成模型,Genie 2能產生無限多樣的、可操控且可玩的3D環境,用於訓練和評估具身智能體。
基於一張提示詞影像,它就可被人類或AI智能體操作了!方式是使用鍵盤和滑鼠輸入。
在AI研究中,遊戲一直扮演著至關重要的角色。因為具有以引人入勝的特性、獨特的挑戰組合以及可衡量的進展,遊戲成為了安全測試和提升AI能力的理想環境。
自從Google DeepMind成立以來,遊戲一直是研究的核心——從早期的Atari遊戲研究,到AlphaGo和AlphaStar等突破性成果,再到與遊戲開發者合作研究通用智能體。
然而,訓練更通用的具身智能體,卻因缺乏足夠豐富和多樣化的訓練環境而受到限制。
但現在,Genie 2的誕生改變了一切。
從此,未來的智能體可以在無限的新世界場景中進行訓練和評估了。
互動式體驗原型設計的新型創意工作流程,也有了全新的可能性。
基礎世界模型的湧現能力
迄今為止,世界模型在很大程度上都受限於狹窄領域的建模。
在Genie 1中,研究人員引入了一種產生多樣化二維世界的方法。
而到了Genie 2這一代,在通用性上實現了重大突破——它能生成豐富多樣的3D世界了。
Genie 2是一種世界模型,這意味著,它可以模擬虛擬世界,包括採取任何行動(如跳躍、游泳等)的後果。
在基於大規模視訊資料集進行訓練後,它像其他生成式AI模型一樣,展現出了各種規模的湧現能力,例如物體互動、複雜的角色動畫、物理效果、建模、預測其他智能體行為的能力等等。
對於每個人類與Genie 2互動的demo,模型都以由Imagen 3產生的單張圖片作為提示詞輸入,
這意味著,任何人都可以用文字描述自己想要的世界,選擇自己喜歡的渲染效果,然後進入這個新創建的世界,並且與之互動(或者,也可以讓AI智能體在其中被訓練或評估)。
每一步,人或智能體都能透過鍵盤和滑鼠提供動作,而Genie 2會模擬下一步的觀察。
在長達一分鐘的時間裡,Genie 2可以產生一個一致的世界,持續時間直接長達10-20秒!
動作控制
Genie 2能夠智慧回應透過鍵盤按鍵採取的動作,辨識角色並正確移動。
例如,模型必須計算出,箭頭鍵應該移動機器人,而不是移動樹木或雲朵。
一個在樹林中的可愛的人形機器人
一個在古埃及的人形機器人
在紫色的星球上,以機器人第一
人稱視角觀察在現代都市的公寓中,以機器人第一人稱視角觀察
生成反事實
Genie 2能夠基於同一個開始畫面,創造出多個不同的發展。
這意味著我們可以為AI訓練提供各種’如果這樣做會怎樣’的場景。
在下面的這兩行demo中,每個影片都會從完全相同的畫面開始,但人類玩家會選擇不同行動。
長時間記憶
Genie 2能夠記住那些暫時離開畫面的場景,並在它們重新進入視野時,精確地還原出來。
持續生成新場景
Genie 2能在過程中即時創造出符合邏輯的新場景內容,並且可以在長達一分鐘的時間內保持整個世界的一致性。
多樣化環境
Genie 2能夠產生多種不同的觀測視角,例如第一人稱視角、等距視角(45度俯視角)或第三人稱駕駛視角。
3D結構
Genie 2能夠創造複雜的3D視覺場景。
物體屬性與交互
Genie 2能夠建模各種物體交互,例如氣球爆裂、開門和射擊炸藥桶。
角色動畫
Genie 2能夠為不同類型的角色,製作各種動作的動畫。
全國人大
Genie 2能夠為其他智能體建模,甚至與它們進行複雜互動。
物理效果
Genie 2能夠模擬出水面的動效。
煙霧
Genie 2能夠模擬煙霧的效果。
重力
Genie 2能夠模擬重力。
光照
Genie 2能夠模擬點光源和方向光。
反射
Genie 2能夠模擬反射、泛光和彩色光照。
基於真實影像的模擬
Genie 2還可以將真實世界的圖像作為提示詞輸入,並模擬出草葉在風中搖曳或河水流動等場景。
快速創建測試原型
有了Genie 2,製作多樣化的互動場景就變得簡單了。
研究人員可以快速嘗試新環境,來訓練和測試具身AI智能體。
例如,以下是研究人員向Genie 2輸入Imagen 3所產生的不同影像,來模擬操控紙飛機、飛龍、獵鷹或降落傘等不同的飛行方式。
在這個過程中,也同時測試了Genie處理不同控制物件動作時的表現。
憑藉強大的離散泛化能力,Genie 2可以將概念設計圖和手繪草圖轉換為可實際互動的場景。
從而讓藝術家和設計師能夠快速驗證創意,提升場景設計的效率,並加速相關研究的進度。
以下是一些由概念設計師創作的虛擬場景範例。
AI智能體在世界模型中行動
透過Genie 2,研究人員能夠快速建構出豐富多樣的虛擬環境,並創造全新的評估任務,來測試AI智能體在從未接觸過的場景中的表現。
下面這個demo,就是GoogleDeepMind與遊戲開發者共同開發的SIMA智能體,它能夠在Genie 2僅透過一張圖片產生的全新環境中,準確理解並完成各種指令。
prompt:一張第三人稱開放世界探索遊戲的截圖。畫面中的玩家是一名在森林中探索的冒險家。左邊有一棟紅門的房子,右邊有一棟藍門的房子。鏡頭正對著玩家的身後。 #寫實風格#身臨其境
SIMA智能體的目標是,能夠在多樣化的3D遊戲環境中,透過自然語言指令完成各種任務。
在這裡,團隊使用Genie 2產生了一個包含兩扇門(藍色和紅色)的3D環境,並向SIMA智能體提供了打開每扇門的指令。
過程中,SIMA透過鍵盤和滑鼠來控制遊戲角色,而Genie 2負責即時生成遊戲畫面。
打開藍色的門
打開紅色的門
不僅如此,我們還可以藉助SIMA來評估Genie 2的各項能力。
例如,透過讓SIMA在場景中四處查看並探索房屋背後的區域,測試Genie 2是否能夠產生一致性的環境。
轉身
去房子後面
儘管這項研究還處於起步階段,無論是AI智能體的表現,或是環境的生成都還有待提升。
但研究人員認為,Genie 2是解決安全訓練具身智能體這一結構性問題的路徑,同時也能夠實現通往通用人工智慧(AGI)所需的廣度和通用性。
prompt:一個電腦遊戲場景,展示了一座粗獷的石洞或礦洞內部。畫面採用第三人稱視角,鏡頭在主角上方俯視。主角是一位手持長劍的騎士。騎士面前矗立著三座石砌的拱門,他可以選擇進入任一道門。透過第一扇門,可以看到隧道內生長著散發螢光的奇異綠色植物。第二扇門後面是一條長廊,洞壁上佈滿了鉚接的鐵板,遠處隱約透出令人不安的光芒。第三扇門內則是一段粗糙的石階,蜿蜒通往未知的高處。
走上樓梯
去有植物的地方
去中間的門
擴散世界模型
Genie 2是一種基於大規模視訊資料集訓練的自回歸潛在變數擴散模型。
其中,影片的潛在變數訊框首先會由自動編碼器處理,然後傳遞給一個基於類似LLM中因果掩碼訓練的大規模Transformer動態模型。
在推理階段,Genie 2可以以自回歸的方式進行取樣,逐幀利用單一動作和先前的潛在變數幀。期間,無分類器指導(classifier-free guidance)會被用來提高動作的可控性。
值得注意的是,上文中的演示均由未經蒸餾的’滿血版’基礎模型生成,從而充分地展示技術潛在的能力。
當然,也可以即時運行經過蒸餾的版本(distilled version),但輸出品質會相應降低。
花絮
除了這些酷炫的demo之外,團隊在生成過程中也發現了許多有趣的花絮:
在花園裡站著發呆,突然間,一個幽靈出現了
這位朋友更喜歡在雪場裡跑酷,而不是老實地用滑雪板滑雪
能力越大,責任越大
致謝
最後,GoogleDeepMind團隊放出了一個長長的致謝名單。