2000億次開放學習后 DeepMind的智慧體成精了
有這樣一批智慧體,在完全沒有見過的遊戲任務裡,也學會了遊刃有餘地解決目標。 譬如面對下面這樣一個高地,它們要取到上面的紫色金字塔。 沒有跳躍功能的它們,看似開始「焦躁」地亂扔起東西來,實則其中一塊板子正好被「扔」成了樓梯,這不就巧了,目標完成!
你可能會說這隻是「瞎貓撞死耗子」罷了,但多次實驗發現,該智慧體可以復現該方法的!
而且它還會不止一種方法,「我不上去,你下來」——直接藉助板子把目標扒拉下來了!
這也行?
而這些成精了的智慧體來自DeepMind。
現在,為了讓AI更加多才多藝、舉一反三,他們專門給智慧體打造了一個包含了數十億遊戲任務的”元宇宙”XLand:讓智慧體在不斷擴展、升級的開放世界中通過上億次的訓練練就了不俗的泛化能力。
最終效果就像前面看到的,無需在新遊戲中從頭訓練,它們就能自主解決任務!
DeepMind也因此發表了一篇論文,就叫做:《從開放學習走出來的通用智慧體》。
如何做到的呢?
“元宇宙”XLand
最功不可沒之一的就是這個龐大的”元宇宙”模擬空間。
這是一個「遊戲星系」,裡面有無數個「遊戲星球」,每個星球上的遊戲按競爭性、平衡性、可選項、探索難度四個維度進行區分。
比如圖左上介紹的「搶方塊」遊戲:藍色智慧體需要把黃色的立方體放到白色區域,紅色智慧體需要把同一個立方體放在藍色區域。
啊想想就頭大,所以這個遊戲的競爭性值都拉滿了,而由於雙方的條件/目標都一樣,所以平衡性值也很高,因為需要定位目標區域,所以探索難度並不小。
再比如圖右上的「將球體和立方體配對」:藍色/紅色智慧體要將幾何體按顏色歸類到一起,完成任意一組配對就行。 這個遊戲的可選性值就拉滿了,但競爭性就沒那麼強。
ps.藍色遊戲代表是完全競爭性的,粉色為完全合作性的。
不管是哪種遊戲任務,這批智慧體都從最簡單的開始(比如僅”靠近紫色立方體”這種),一步步解鎖複雜度升級的遊戲(比如和另一個智慧體”捉迷藏”),其中每一項遊戲都有獎勵,智慧體們的目標就是將拿到的獎勵最大化。
而智慧體”玩家”們是通過閱讀收到的目標的文字描述、觀察RGB圖像來感知周圍環境來完成任務。
生成的新任務要基於舊任務,且難度要剛剛好
除了上面這個開放式的學習環境,訓練方法也很重要。
研究人員使用的神經網路訓練架構提供了一種針對智慧體內部循環狀態的注意力機制——通過估計所玩遊戲的子目標,來持續引導智慧體的注意力。
這種策略讓智慧體學習到更具普遍能力的策略。
還有一個問題:如此廣闊的遊戲環境,什麼樣的遊戲任務分佈能產出最善於泛化的智慧體呢?
研究人員通過持續調整每個智慧體的遊戲分佈發現,每個新任務都要基於通關的舊任務生成,不能太難,也不能太容易。
這個也基本符合一般認知。
它們先經歷了四次反覆運算:
每個任務由多個智慧體參與競爭,在舊任務上適應得好的智慧體,會帶著權重、暫態任務分佈、超參數等參與到新一輪任務中繼續學習。 此時也會加入新的智慧體讓競爭”活”起來。
智慧體表現出明顯的零樣本學習能力
最後生成的第五代智慧體,在XLand 4000多個”星球”裡玩了大約70萬個遊戲,每一個智慧體都經歷了2000億次訓練,完成了340萬個獨特任務。
到了這個時候,這些智慧體已經能夠順利完成每一項評估任務(除了少數即使是人類也不可能完成的)。
整個實驗也最終表明,通過開發像XLand這樣的環境和這樣開放式地訓練方法,一些基於RL的智慧體已表現出明顯的零樣本學習能力(0-shot)。
比如使用工具、打攔(ridge-fencing)、”捉迷藏”、找立方體、數數、合作或競爭等。
研究人員也觀察到智慧體們面對新任務時不知道「什麼是最好的解決辦法」,但它們會不斷地試驗直到達到目標。
這個過程中出現的有趣的「緊急啟發式行為」,除了開頭提到的搭梯子,還有這個臨時更換更簡易目標的例子——
在遊戲中該智慧體需要從3個目標中任選一個完成:
1、將黑色金字塔放到黃色球體旁邊;2、將紫色球體放到黃色金字塔旁邊;3、將黑色金字塔放到橙色區域。
它一開始找到了一個黑色金字塔,想去完成目標3,但在搬運過程中看到了黃色球體,於是它就在1秒內改變了主意,選擇直接將金字塔放在黃色球體旁邊完成目標1。
(整個過程一共耗時6秒)
最後,看完了DeepMind的研究,再拋給大家一個問題:我們離真正的通用人工智慧還有多遠?
圖片
(ps.你發現了嗎,文章最開頭高台取金字塔任務中的小紅智障體就不行,一直打轉,面對小藍搭好的梯子甚至直接毀掉