谷歌通用AI智能體發布3D遊戲玩法要變天了

10秒內可以完成的簡單任務，而且未見過的遊戲也會玩。Google DeepMind號稱打造了首個能在廣泛3D虛擬環境和電玩遊戲中遵循自然語言指令的通用AI智能體。名為SIMA，不是NPC，是可以成為玩家拍檔，幫忙工作打雜的那種。

例如，在《模擬山羊3》（Goat Simulator 3）當駕駛開開車：

在《幸福工廠》（Satisfactory）挖礦石：

在《瓦爾海姆》（Valheim）中尋找水源：

在《無人深空》（No Man’s Sky）駕駛太空船射擊小行星收集資源：

……

SIMA全名為Scalable Instructable Multiworld Agent，顧名思義可擴展、可指導、多世界。

之前，GoogleDeepMind在AI+遊戲方面也做過許多工作，像是推出能和人類玩家打PK、會玩《星海爭霸II》的AlphaStar系統。

而SIMA被DeepMind稱作是一個“新的里程碑”，主打從適用單一遊戲轉向通用多種遊戲，且可遵循語言指令。

SIMA一公開，網友們也是討論熱烈。

讓它們替我完成無聊繁瑣的任務，這樣我就可以直接做有趣的部分，而不必花幾個小時培育chocobos獲取隨機召喚。

嗯…《最終幻想》（Final Fantasy）玩家無疑了。

專業《模擬山羊》玩家在此刻也懵了：

最近這一連串的AI進展也是整的網友們措不及防，直呼「慢一點」：

10秒內完成的簡單任務

接下來再來看一波SIMA的表現。

為了讓SIMA接觸到更多遊戲環境，開發團隊表示目前已與八家遊戲工作室合作，在九款不同的電玩遊戲上訓練和測試了SIMA。

目前的SIMA已在600個基本技能上進行了評估。

基本操作、互動、使用選單都會：

簡單的任務，10秒內可完成。

各種場景都能適應：

除此之外，GoogleDeepMind還發布了一份技術報告，一起來看看裡面都有啥。

未見過的遊戲也會玩

SIMA的整體架構是將預先訓練視覺模型與自監督學習的Transformer結合。

從使用者接收語言指令，並從環境中獲取圖像觀察結果，然後將它們映射為鍵盤和滑鼠動作。

具體架構如下圖：

開發人員收集了一個既包括精選研究環境又包括商業電玩遊戲的大型多樣化遊戲資料集。

此外，他們還用Unity創造的新環境，名為「the Construction Lab」。在這個環境中，智能體需要使用積木來建構雕塑，這考驗了它們對物體的操縱能力和對物理世界的理解。

資料收集包含多種方法，例如讓不同成對的人類玩家的互動，其中一名玩家觀察並指導另一名玩家，以此來捕獲語言指令；讓玩家自由玩遊戲，觀察他們的操作，並記錄下一個可能導致其遊戲行為的指令。

透過在不同的遊戲世界中學習，SIMA能夠將語言與遊戲行為結合。

不需要存取遊戲原始碼，也不需要自訂API，僅需要兩個輸入：螢幕上的圖像和用戶提供的簡單的自然語言指令。

然後SIMA就會使用鍵盤和滑鼠輸出來控制遊戲角色以執行這些指令，這項操作與人類類似，也意味著SIMA有潛力與任何虛擬環境互動。

在評估測試中，研究人員表示SIMA在九個3D遊戲集上接受訓練，表現顯著優於僅在單一遊戲上專門訓練的智能體。

而且SIMA在未訓練過的遊戲中的表現和專門使用該遊戲資料集訓練過的智能體表現一樣好。

也就是說，SIMA在全新環境中具備泛化能力。

此外測試結果也顯示，SIMA的效能依賴語言。在一個控制測試中，智能體沒有接受任何語言訓練或指令，它就會出現無目的的操作，不遵循指令。

而且，跟人類玩家比較，SIMA水平還是差一點。

WONGCW 網誌