Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

人類被AI“毀滅” 一定是從教它玩《我的世界》開始的

人類被AI“毀滅” 一定是從教它玩《我的世界》開始的

2023-06-04 Comments 0 Comment

上週,幾乎是前後腳,英偉達和國內幾家科研機構分別發布了兩份內容相似的論文。首先是英偉達宣布開發出了一個全新的遊戲AI智能體“VOYAGER”,將AI大模型GPT-4接入了《我的世界》(Minecraft)遊戲。

基於GPT-4,VOYAGER能夠在《我的世界》裡擴充著自己的物品和裝備,完成諸如建造房屋、挖礦、收集仙人掌和狩獵等基本生存技能;也能獨立進行開放式探索,去到不同的城市和地點,甚至是自己搭建傳送門。

英偉達稱VOYAGER在《我的世界》裡獲得的物品增加了3.3倍,旅行距離增加了2.3倍,解鎖關鍵技能樹的速度也比之前的方法快了15.3倍。

接著就是商湯科技聯合清華大學、上海人工智能實驗室等機構發布了通才AI智能體“Ghost in the Minecraft(GITM)”。

同樣是將大語言模型(LLM)整合進《我的世界》,GITM在《我的世界》內主世界的所有技術挑戰上實現了100%的任務覆蓋率(成功通關解鎖了完整的科技樹),而此前所有智能體的總和只能覆蓋30%;另外在“獲取鑽石”任務上,GITM成功率達67.5%,同樣相比於此前的最佳成績——OpenAI的VPT方法大幅提高了47.5%。

GITM在《我的世界》的任務覆蓋率遠高於現有AI智能體

直白點說,他們都選擇了《我的世界》這款遊戲來訓練AI,並且AI都實現了真人玩家能夠完成的幾乎所有遊戲任務,堪比是能以假亂真的效果(這放在幾個月前還是不可能的事)。

我們先拋開看起來艱澀的技術細節不談,為啥他們不約而同都迷上了拿《我的世界》做實驗?

《我的世界》就是個大型AI試驗場

要說起在《我的世界》裡訓練過的AI,那可就太多了。

著名的莫拉維克悖論是這麼說的:一些任務對於人類而言很困難,例如下棋,但對AI來說很簡單;而像《我的世界》這樣開放世界中與環境交互、進行規劃和決策等對人類來說較為簡單的事情,對AI來說卻是巨大挑戰。

正因為這種情況的存在,在AI還不像現在這麼發達的早幾年,科學家們最初只是在《我的世界》裡用AI完成一些簡單的指令。

比如在2019年,Facebook研發過一款《我的世界》AI 助手“craftassist bot”,這是一個智能協作式的助理機器人,可以執行人類玩家指定的各種任務,如馴服馬匹、建造城市、與村民會面及交易等。

也是在2019年,卡內基·梅隆大學、微軟、DeepMind和OpenAI,聯合機器學習頂級會議NeurIPS共同舉辦了一個叫做“MineRL”的專門針對《我的世界》遊戲的AI比賽,到2022年一共舉辦了四屆。

這個比賽同樣見證了AI在《我的世界》中的應用由簡單到復雜的過程。

比如第一屆MineRL比的東西還很簡單:看哪個研究團員能夠創造出可以在《我的世界》中成功開採鑽石的AI。不過很慘,最後參加的900多個全球頂尖團隊沒有一個能完成挑戰,一些AI擼掉木材卻不會合成,一些AI造出了熔爐卻不會冶煉,一些AI知道去地下挖礦,但卻選擇了垂直挖……

後來到了第三屆,比賽內容就變成了看誰能訓練出樣本高效的《我的世界》AI智能體。這一屆的冠軍是以76.970分的絕對優勢奪冠的騰訊AI Lab“絕悟”。

各種公司、機構密集開始在《我的世界》中訓練AI其實也是最近五年的事。

美國國防高級研究計劃局(DARPA)在2020年8月啟動了自適應分佈式概率任務分配(ADAPT)項目,以期在戰場空間中利用AI協助指揮官進行決策,該項目的承包商Aptima公司用到的就是《我的世界》來訓練AI與人類的互動能力。

2021年哥本哈根信息技術大學、紐約大學和上海大學的研究者也創建過一個使用3D神經元胞自動機(Neural Cellular Automata,NCA)的系統,並將該系統部署在了《我的世界》裡,這個時候的NCA已經可以建造毛毛蟲、城堡、公寓樓和樹等複雜的實體。

比較出圈的一次實驗是在去年。

OpenAI去年宣布由他們訓練的AI已經做到了熟練遊玩《我的世界》。通過引入一種新穎且便捷的AI訓練法“視頻預訓練(Video PreTraining)”,在向AI“投餵”了7萬小時從相關合作方處獲取的《我的世界》演示視頻以及與視頻配套的鍵盤鼠標操作記錄後,OpenAI旗下的AI的操作已經相當傳神,掌握了只有人類才能領悟的高階玩法。

OpenAI在《我的世界》中的實操演示

OpenAI在《我的世界》中的實操演示

此外,DeepMind也在今年年初開發出了能夠媲美OpenAI成果的名叫“DreamerV3”的AI智能體。DreamerV3在沒有任何人工數據輔助的情況下,被丟進《我的世界》裡摸爬滾打了17天,驚人地學會瞭如何從0開始挖鑽石,成了世界上第一個純靠自己摸索,就能在《我的世界》裡速挖鑽石的AI智能體。

當時MineRL比賽的發起人之一William Guss都忍不住第一時間發來賀電:4年了,“鑽石挑戰”終於被攻克了!

沒有誰比《我的世界》更合適了

《我的世界》面世12年,已經成為世界上最受歡迎的一款遊戲,被許多玩家形容為電子版的樂高。早在2019年,《我的世界》就超過《俄羅斯方塊》成為全球銷量最高的遊戲。

《我的世界》“開放世界”的遊戲屬性讓它成了科學家們訓練AI的絕佳場所。

不同於LOL和王者榮耀等單一的戰略對戰遊戲,《我的世界》並不預先設定目標,僅有的兩個模式是“生存”和“創造”。“生存”模式中,玩家要造好房子並收集東西,保證活下來,即使是用來擊退殭屍和蜘蛛的劍也需要玩家用木材和鐵礦來鍛造;“創造”模式則更加自由,玩家使用各種功能的立方體,自由構建建築物和物體,而且遊戲永遠不會結束。

如果說LOL、王者榮耀或是很多棋類游戲因為簡單的規則和遊戲機制,可以讓AI以極快的速度學習並超越戰勝人類,《我的世界》遊戲過程的複雜程度就幾乎是在挑戰AI的極限。

極度多樣的環境、完全靠隨機種子生成的地圖、長決策序列與復雜的技能學習、高自由度玩法帶來的海量策略偏好,都增加了《我的世界》AI研究的難度。

比如,為了讓AI在15分鐘內找到鑽石,AI需要經歷徒手採集原木、合成木板、木棍與木鎬,採集到鐵礦,經過一系列加工才能合成鑽石,看似只是一件小事,但對於AI來說,卻需要掌握其中復雜的邏輯關係——這還只是《我的世界》遊戲的一部分,除了製造工具,AI還需要給自己制定目標,學著在遊戲世界裡探索,直到解鎖所有的遊戲任務。

《我的世界》中找鑽石的步驟

《我的世界》中找鑽石的步驟

而如果只是學下棋或是打LOL,AI只用知道怎麼贏就行了。

是不是覺得,《我的世界》訓練出來的AI,要比靠下棋、玩LOL訓練出來的AI高級多了(雖然學習速度可能慢了點)?

事實上在當前的AI研究中,科學家們會越來越追求通用人工智能(AGI)的研究,追求打造更通用的AI智能體,也就是發展AI智能體能夠掌握廣泛的技能,適應各種環境變化,更深入地模擬和應對人類在復雜問題上的能力,像人一樣的進行感知、理解和交互(而不是只會回答簡單問題、下棋能贏人類那種“小打小鬧”的AI)。

這就意味著要訓練通用AI,《我的世界》模擬的環境是非常合適的。

不過,開放世界遊戲那麼多,為什麼又偏偏是《我的世界》呢?

有網友在Twitter向參與開發了VOYAGER的英偉達首席科學家Jim Fan發問說,既然VOYAGER是為開放世界而生,那為什麼沒有選擇在《塞爾達》或者是《艾爾登法環》這樣看上去更加宏大的開放世界遊戲中作AI訓練?

Jim Fan的回答是,這中間的主要難點其實並不是算法,而是因為《塞爾達》和《艾爾登法環》這樣的遊戲運用了“緩慢且難以以編程方式控制高端控制台”,並且“需要一個好的編碼API來控制角色”。相較之下,《我的世界》的技術門檻要更低,在目標和玩法類似的情況下,《我的世界》實際也為AI訓練降低了難度。

另外,《我的世界》對開發者也很友好。許多用於構建《我的世界》的代碼庫都是開源的,所以人們可以很容易修改。並且該遊戲也允許研究人員記錄和學習人們是如何一起完成任務的,然後觀察他們將如何與AI智能體一起工作。

從這些意義上說,沒有誰比《我的世界》來訓練AI更合適的了。

這次《我的世界》裡的AI有什麼特別?

此次英偉達開發的VOYAGER,和商湯科技聯合清華大學、上海人工智能實驗室等機構開發的GITM,與過去基於《我的世界》訓練的AI智能體最大的不同在於,引入了大語言模型(LLM)作為AI訓練的核心方法。

以往在《我的世界》中訓練AI用到的主流方法則是,模仿學習和強化學習。

即便是此前OpenAI和DeepMind開發出的最先進的《我的世界》AI智能體,用到的訓練方法也是模仿學習和強化學習。

打個比方,如果想讓AI在《我的世界》裡學會挖礦,模擬學習要做的就是先餵給AI上萬個遊戲視頻,讓它分析學習為什麼要擼樹,如何利用工作台進行分解合成,如何做出第一把鎬子,如何冶煉鐵錠,製作鐵鎬,獲取鑽石,如何避免落入岩漿,如何戰斗等等挖礦的必要步驟。

等到投餵學習結束,AI接下來就要接受強化學習,也就是把AI小人扔進《我的世界》,讓它去“真正”執行挖礦的任務,通過反复實驗來發現和解決問題,從而真正學會挖礦這一技能。

但在大語言模型的訓練方法下,AI的學習邏輯是被完全重構的。

依然拿挖礦來說,AI智能體自身會首先根據“盡可能多發現不同的東西來幫助挖礦”的總體目標去提問、自動生成許多小任務,通過去存儲有助於成功解決某個任務的行動程序(比如擼掉樹木再去進行合成被驗證是正確的,造出了熔爐就要去冶煉也是正確的),AI就會逐漸建立起一個如何正確挖礦的技能庫。而往後如果再遇到挖礦任務,AI就可以根據其描述的嵌入在技能庫中進行檢索。

大語言模型訓練方法下的GITM

也就是說,大語言模型的訓練方法下,AI是可以自主驅動探索並掌握廣泛技能的,這就使得大語言模型方法更能幫助AI成為一個終身學習者,能在較長的時間跨度內逐步獲得、更新、積累和遷移知識,同時緩解了其他持續學習方法中的“災難性遺忘”。

VOYAGER探索物品量高於其他許多AI智能體

有點像是一直讓AI呆在學校裡讀書實習,還是讓AI一開始就在社會裡摸爬滾打的區別。

總而言之,用大語言模型方法在《我的世界》訓練出來的AI更像一個真實的人了。

我們知道,一個理想的AI應該具有與人類類似的能力。《我的世界》裡的AI不管是根據其當前的技能水平和世界狀態提出合適的任務(如果發現自己處於沙漠而不是森林,就會在打鐵前學會獲取沙子和仙人掌),根據環境反饋完善技能並將掌握的技能存入記憶(比如打殭屍和打蜘蛛的技能類似),還是不斷探索世界,以自驅動的方式尋找新任務,其實都已經和現實世界中人類的決策過程和行為方式非常相近。

說《我的世界》已經是一個縮小版的現實世界也許一點也不誇張。

而讓人細思極恐的是,隨著VOYAGER和GITM的研究成果發布,AI現在已經能通關《我的世界》了。

這不禁讓人猜想,AI是不是很快就能在現實世界裡如魚得水,它能像人一樣生活,會做飯、會用手機、知道怎麼穿衣服、怎麼養寵物、怎麼坐公交地鐵……更不可思議的是,它還能像人一樣有自己的想法,知道穿哪件衣服好看,怎麼做飯能更好吃,電話應該打給誰……沒准在不久的將來,我們在生活中遇到到的“人”,都無法分辨它是不是AI。

既然都能通關《我的世界》了,AI過上人的生活從技術上來講也不是不能實現。

人類又會如何選擇呢?

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
陳睿不知道的事:B站被金主拋棄UP主血虧150萬
NEXT
英偉達的崛起,是否正在改變科技行業的勢力版圖?

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2023 年 6 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
2627282930  
« 5 月   7 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 嫦娥七號明年前後將發射也將帶一件重要儀器上月球 2025-07-10
  • 三星首款三折疊已就緒但仍在觀望市場是否真有需求 2025-07-10
  • 地表最貴AI誕生年費2.1萬,自稱學術能力超人類博士 2025-07-10
  • 中車長客設計師:CR450BF爭取明年見 2025-07-10
  • 儲存空間越來越不夠用1%的PC玩家設備可用不足10G 2025-07-10
  • 跳票6年後特斯拉Semi電動半掛終於完成貨運測試 2025-07-10
  • 主產帕薩特和速派存世17年的上汽大眾南京工廠正式關閉 2025-07-10
  • 歐洲高效能運算處理器「Rhea1」流片上市時間延至2026年 2025-07-10
  • 烏克蘭將在2026年推出星鏈行動服務 2025-07-10
  • 美國機器人自主完成膽囊切除手術表現堪比資深醫生 2025-07-10

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • Photon Matrix:針對蚊子的“防空系統”
  • 曝鈴木汽車因中國稀土管制全面停產主力車型雨燕
  • 百度地圖新增攤位上傳綠色通道用戶使用地圖可直接導航至地攤前
  • TIM for Windows v2.3.0.20979 正式版发布
  • ABC/CBS/Fox/NBC紛紛向免費電視流媒體應用Locast發起訴訟
  • 完整驅動程序解決方案Treexy Driver Fusion v8.1.0 + v1.7.0 Premium
  • 您可以在Windows 11 24H2 中找回WordPad
  • 微信調整新裝置登入驗證功能可以人臉辨識取代先前兩位好友驗證碼
  • CorelDRAW Graphics Suite 2020 v22.1.0.517

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.