人類被AI“毀滅” 一定是從教它玩《我的世界》開始的
上週,幾乎是前後腳,英偉達和國內幾家科研機構分別發布了兩份內容相似的論文。首先是英偉達宣布開發出了一個全新的遊戲AI智能體“VOYAGER”,將AI大模型GPT-4接入了《我的世界》(Minecraft)遊戲。
基於GPT-4,VOYAGER能夠在《我的世界》裡擴充著自己的物品和裝備,完成諸如建造房屋、挖礦、收集仙人掌和狩獵等基本生存技能;也能獨立進行開放式探索,去到不同的城市和地點,甚至是自己搭建傳送門。
英偉達稱VOYAGER在《我的世界》裡獲得的物品增加了3.3倍,旅行距離增加了2.3倍,解鎖關鍵技能樹的速度也比之前的方法快了15.3倍。
接著就是商湯科技聯合清華大學、上海人工智能實驗室等機構發布了通才AI智能體“Ghost in the Minecraft(GITM)”。
同樣是將大語言模型(LLM)整合進《我的世界》,GITM在《我的世界》內主世界的所有技術挑戰上實現了100%的任務覆蓋率(成功通關解鎖了完整的科技樹),而此前所有智能體的總和只能覆蓋30%;另外在“獲取鑽石”任務上,GITM成功率達67.5%,同樣相比於此前的最佳成績——OpenAI的VPT方法大幅提高了47.5%。
GITM在《我的世界》的任務覆蓋率遠高於現有AI智能體
直白點說,他們都選擇了《我的世界》這款遊戲來訓練AI,並且AI都實現了真人玩家能夠完成的幾乎所有遊戲任務,堪比是能以假亂真的效果(這放在幾個月前還是不可能的事)。
我們先拋開看起來艱澀的技術細節不談,為啥他們不約而同都迷上了拿《我的世界》做實驗?
《我的世界》就是個大型AI試驗場
要說起在《我的世界》裡訓練過的AI,那可就太多了。
著名的莫拉維克悖論是這麼說的:一些任務對於人類而言很困難,例如下棋,但對AI來說很簡單;而像《我的世界》這樣開放世界中與環境交互、進行規劃和決策等對人類來說較為簡單的事情,對AI來說卻是巨大挑戰。
正因為這種情況的存在,在AI還不像現在這麼發達的早幾年,科學家們最初只是在《我的世界》裡用AI完成一些簡單的指令。
比如在2019年,Facebook研發過一款《我的世界》AI 助手“craftassist bot”,這是一個智能協作式的助理機器人,可以執行人類玩家指定的各種任務,如馴服馬匹、建造城市、與村民會面及交易等。
也是在2019年,卡內基·梅隆大學、微軟、DeepMind和OpenAI,聯合機器學習頂級會議NeurIPS共同舉辦了一個叫做“MineRL”的專門針對《我的世界》遊戲的AI比賽,到2022年一共舉辦了四屆。
這個比賽同樣見證了AI在《我的世界》中的應用由簡單到復雜的過程。
比如第一屆MineRL比的東西還很簡單:看哪個研究團員能夠創造出可以在《我的世界》中成功開採鑽石的AI。不過很慘,最後參加的900多個全球頂尖團隊沒有一個能完成挑戰,一些AI擼掉木材卻不會合成,一些AI造出了熔爐卻不會冶煉,一些AI知道去地下挖礦,但卻選擇了垂直挖……
後來到了第三屆,比賽內容就變成了看誰能訓練出樣本高效的《我的世界》AI智能體。這一屆的冠軍是以76.970分的絕對優勢奪冠的騰訊AI Lab“絕悟”。
各種公司、機構密集開始在《我的世界》中訓練AI其實也是最近五年的事。
美國國防高級研究計劃局(DARPA)在2020年8月啟動了自適應分佈式概率任務分配(ADAPT)項目,以期在戰場空間中利用AI協助指揮官進行決策,該項目的承包商Aptima公司用到的就是《我的世界》來訓練AI與人類的互動能力。
2021年哥本哈根信息技術大學、紐約大學和上海大學的研究者也創建過一個使用3D神經元胞自動機(Neural Cellular Automata,NCA)的系統,並將該系統部署在了《我的世界》裡,這個時候的NCA已經可以建造毛毛蟲、城堡、公寓樓和樹等複雜的實體。
比較出圈的一次實驗是在去年。
OpenAI去年宣布由他們訓練的AI已經做到了熟練遊玩《我的世界》。通過引入一種新穎且便捷的AI訓練法“視頻預訓練(Video PreTraining)”,在向AI“投餵”了7萬小時從相關合作方處獲取的《我的世界》演示視頻以及與視頻配套的鍵盤鼠標操作記錄後,OpenAI旗下的AI的操作已經相當傳神,掌握了只有人類才能領悟的高階玩法。
OpenAI在《我的世界》中的實操演示
此外,DeepMind也在今年年初開發出了能夠媲美OpenAI成果的名叫“DreamerV3”的AI智能體。DreamerV3在沒有任何人工數據輔助的情況下,被丟進《我的世界》裡摸爬滾打了17天,驚人地學會瞭如何從0開始挖鑽石,成了世界上第一個純靠自己摸索,就能在《我的世界》裡速挖鑽石的AI智能體。
當時MineRL比賽的發起人之一William Guss都忍不住第一時間發來賀電:4年了,“鑽石挑戰”終於被攻克了!
沒有誰比《我的世界》更合適了
《我的世界》面世12年,已經成為世界上最受歡迎的一款遊戲,被許多玩家形容為電子版的樂高。早在2019年,《我的世界》就超過《俄羅斯方塊》成為全球銷量最高的遊戲。
《我的世界》“開放世界”的遊戲屬性讓它成了科學家們訓練AI的絕佳場所。
不同於LOL和王者榮耀等單一的戰略對戰遊戲,《我的世界》並不預先設定目標,僅有的兩個模式是“生存”和“創造”。“生存”模式中,玩家要造好房子並收集東西,保證活下來,即使是用來擊退殭屍和蜘蛛的劍也需要玩家用木材和鐵礦來鍛造;“創造”模式則更加自由,玩家使用各種功能的立方體,自由構建建築物和物體,而且遊戲永遠不會結束。
如果說LOL、王者榮耀或是很多棋類游戲因為簡單的規則和遊戲機制,可以讓AI以極快的速度學習並超越戰勝人類,《我的世界》遊戲過程的複雜程度就幾乎是在挑戰AI的極限。
極度多樣的環境、完全靠隨機種子生成的地圖、長決策序列與復雜的技能學習、高自由度玩法帶來的海量策略偏好,都增加了《我的世界》AI研究的難度。
比如,為了讓AI在15分鐘內找到鑽石,AI需要經歷徒手採集原木、合成木板、木棍與木鎬,採集到鐵礦,經過一系列加工才能合成鑽石,看似只是一件小事,但對於AI來說,卻需要掌握其中復雜的邏輯關係——這還只是《我的世界》遊戲的一部分,除了製造工具,AI還需要給自己制定目標,學著在遊戲世界裡探索,直到解鎖所有的遊戲任務。
《我的世界》中找鑽石的步驟
而如果只是學下棋或是打LOL,AI只用知道怎麼贏就行了。
是不是覺得,《我的世界》訓練出來的AI,要比靠下棋、玩LOL訓練出來的AI高級多了(雖然學習速度可能慢了點)?
事實上在當前的AI研究中,科學家們會越來越追求通用人工智能(AGI)的研究,追求打造更通用的AI智能體,也就是發展AI智能體能夠掌握廣泛的技能,適應各種環境變化,更深入地模擬和應對人類在復雜問題上的能力,像人一樣的進行感知、理解和交互(而不是只會回答簡單問題、下棋能贏人類那種“小打小鬧”的AI)。
這就意味著要訓練通用AI,《我的世界》模擬的環境是非常合適的。
不過,開放世界遊戲那麼多,為什麼又偏偏是《我的世界》呢?
有網友在Twitter向參與開發了VOYAGER的英偉達首席科學家Jim Fan發問說,既然VOYAGER是為開放世界而生,那為什麼沒有選擇在《塞爾達》或者是《艾爾登法環》這樣看上去更加宏大的開放世界遊戲中作AI訓練?
Jim Fan的回答是,這中間的主要難點其實並不是算法,而是因為《塞爾達》和《艾爾登法環》這樣的遊戲運用了“緩慢且難以以編程方式控制高端控制台”,並且“需要一個好的編碼API來控制角色”。相較之下,《我的世界》的技術門檻要更低,在目標和玩法類似的情況下,《我的世界》實際也為AI訓練降低了難度。
另外,《我的世界》對開發者也很友好。許多用於構建《我的世界》的代碼庫都是開源的,所以人們可以很容易修改。並且該遊戲也允許研究人員記錄和學習人們是如何一起完成任務的,然後觀察他們將如何與AI智能體一起工作。
從這些意義上說,沒有誰比《我的世界》來訓練AI更合適的了。
這次《我的世界》裡的AI有什麼特別?
此次英偉達開發的VOYAGER,和商湯科技聯合清華大學、上海人工智能實驗室等機構開發的GITM,與過去基於《我的世界》訓練的AI智能體最大的不同在於,引入了大語言模型(LLM)作為AI訓練的核心方法。
以往在《我的世界》中訓練AI用到的主流方法則是,模仿學習和強化學習。
即便是此前OpenAI和DeepMind開發出的最先進的《我的世界》AI智能體,用到的訓練方法也是模仿學習和強化學習。
打個比方,如果想讓AI在《我的世界》裡學會挖礦,模擬學習要做的就是先餵給AI上萬個遊戲視頻,讓它分析學習為什麼要擼樹,如何利用工作台進行分解合成,如何做出第一把鎬子,如何冶煉鐵錠,製作鐵鎬,獲取鑽石,如何避免落入岩漿,如何戰斗等等挖礦的必要步驟。
等到投餵學習結束,AI接下來就要接受強化學習,也就是把AI小人扔進《我的世界》,讓它去“真正”執行挖礦的任務,通過反复實驗來發現和解決問題,從而真正學會挖礦這一技能。
但在大語言模型的訓練方法下,AI的學習邏輯是被完全重構的。
依然拿挖礦來說,AI智能體自身會首先根據“盡可能多發現不同的東西來幫助挖礦”的總體目標去提問、自動生成許多小任務,通過去存儲有助於成功解決某個任務的行動程序(比如擼掉樹木再去進行合成被驗證是正確的,造出了熔爐就要去冶煉也是正確的),AI就會逐漸建立起一個如何正確挖礦的技能庫。而往後如果再遇到挖礦任務,AI就可以根據其描述的嵌入在技能庫中進行檢索。
大語言模型訓練方法下的GITM
也就是說,大語言模型的訓練方法下,AI是可以自主驅動探索並掌握廣泛技能的,這就使得大語言模型方法更能幫助AI成為一個終身學習者,能在較長的時間跨度內逐步獲得、更新、積累和遷移知識,同時緩解了其他持續學習方法中的“災難性遺忘”。
VOYAGER探索物品量高於其他許多AI智能體
有點像是一直讓AI呆在學校裡讀書實習,還是讓AI一開始就在社會裡摸爬滾打的區別。
總而言之,用大語言模型方法在《我的世界》訓練出來的AI更像一個真實的人了。
我們知道,一個理想的AI應該具有與人類類似的能力。《我的世界》裡的AI不管是根據其當前的技能水平和世界狀態提出合適的任務(如果發現自己處於沙漠而不是森林,就會在打鐵前學會獲取沙子和仙人掌),根據環境反饋完善技能並將掌握的技能存入記憶(比如打殭屍和打蜘蛛的技能類似),還是不斷探索世界,以自驅動的方式尋找新任務,其實都已經和現實世界中人類的決策過程和行為方式非常相近。
說《我的世界》已經是一個縮小版的現實世界也許一點也不誇張。
而讓人細思極恐的是,隨著VOYAGER和GITM的研究成果發布,AI現在已經能通關《我的世界》了。
這不禁讓人猜想,AI是不是很快就能在現實世界裡如魚得水,它能像人一樣生活,會做飯、會用手機、知道怎麼穿衣服、怎麼養寵物、怎麼坐公交地鐵……更不可思議的是,它還能像人一樣有自己的想法,知道穿哪件衣服好看,怎麼做飯能更好吃,電話應該打給誰……沒准在不久的將來,我們在生活中遇到到的“人”,都無法分辨它是不是AI。
既然都能通關《我的世界》了,AI過上人的生活從技術上來講也不是不能實現。
人類又會如何選擇呢?