DeepMind新AI無需提前知曉規則也能掌握遊戲:無論視覺簡單還是複雜
據外媒報導,DeepMind的使命是向人們展示,人工智能不僅能夠真正精通遊戲甚至在不需要被告知遊戲規則也能做到這一點。該公司最新的AI代理產品MuZero不僅可以通過具有復雜策略的視覺簡單遊戲如圍棋、國際象棋和日本將棋實現這一目標,還可以通過視覺複雜的雅達利遊戲實現這一目標。
DeepMind的早期AI的成功至少在一定程度上得益於巨大決策樹的非常有效的導航,這些決策樹代表了遊戲中可能的行動。在圍棋或像棋中,這些樹則是由非常具體的規則控制,如棋子的移動位置、這個棋子移動時會發生什麼等等。
在圍棋比賽中擊敗世界冠軍的AI AlphaGo在研究人類棋手之間和對手之間的比賽時了解了這些規則並把它們牢記於心從而形成了一套最佳實踐和策略。它的續作AlphaGo Zero則在沒有人類數據的情況下就做到了這一點。AlphaZero在2018年對圍棋、象棋和將棋也做了同樣的事情並由此創造了一個可以熟練玩所有這些遊戲的AI模型。
但在所有這些情況下,AI都獲得了一系列不變的已知遊戲規則並圍繞著這些規則創造了一個框架去創造自己的策略。
DeepMind在一篇關於他們新研究的博文中指出,如果AI提前被告知規則,“這就很難將它們應用到混亂的現實世界問題中,這些問題通常都很複雜且很難提煉成簡單的規則。”
該公司的最新進展是MuZero,它不僅可以玩上述遊戲還可以玩雅達利的各種遊戲,且完全無需任何規則手冊。最終的模型不僅通過自己的實驗(沒有人類數據)甚至沒有被告知最基本的規則就學會玩所有這些遊戲。
MuZero並沒有使用規則去尋找最佳情況,而是學會考慮遊戲環境的方方面面並自己觀察它是否重要。在數以百萬計的遊戲中,它不僅學會了規則還學會了位置的一般價值、領先的一般政策以及事後評估自己行為的方法。據悉,後一種能力能幫助AI從自己的錯誤中吸取教訓、重新開始並嘗試不同的方法進而進一步完善位置和策略價值。