DeepMind AI在復雜遊戲西洋陸軍棋中挺進專家級
另一個長期以來被認為是人工智能(AI)極難掌握的遊戲又已經落入機器之手。總部位於倫敦的DeepMind公司製造的一種名為DeepNash的人工智能在戰略遊戲《西洋陸軍棋》(Stratego)方面與人類專家不相上下,這種棋盤遊戲需要在不完美的信息面前進行長期的戰略思考。
12月1日的《科學》雜誌描述了這一成就,緊接著一項研究報告稱人工智能可以玩《強權外交》,其中玩家必須在合作和競爭中進行談判。
研究戰略推理和遊戲理論的計算機科學家邁克爾-韋爾曼(Michael Wellman)說:”近年來,人工智能在質量上不同的遊戲特徵被征服–或掌握到新的水平–的速度相當驚人。《西洋陸軍棋》和《強權外交》彼此之間有很大的不同,而且還擁有與已經達到類似里程碑的遊戲明顯不同的挑戰性特徵。”
《西洋陸軍棋》的特點使其比國際象棋、圍棋或撲克復雜得多,所有這些遊戲都已被人工智能所掌握。在戰略遊戲中,兩名玩家在棋盤上各放40個棋子,但不能看到對手的棋子是什麼。目標是輪流移動棋子以消除對手的棋子並奪取旗幟。戰略遊戲的遊戲樹–所有可能的遊戲方式的圖形–有10535個狀態,而圍棋是10360個。遊戲開始時,Stratego就有1066個可能的走法,這使雙人德州撲克中的106個這樣的開始情況相形見絀。
位於巴黎的DeepMind研究員朱利安-佩羅拉(Julien Perolat)說:”Stratego中可能出現的結果數量之複雜,意味著在完全信息遊戲上表現良好的算法,甚至那些對撲克有用的算法都不起作用。”
自學成才的人工智能在戰略遊戲圍棋方面表現最好
因此,佩羅拉特和同事們開發了DeepNash。這個人工智能的名字是對美國數學家約翰-納什(John Nash)的致敬,他的工作導致了納什均衡這一術語的出現,這是一組穩定的策略,所有的遊戲參與者都可以遵循,這樣就沒有玩家通過改變自己的策略而獲益。遊戲可以有零個、一個或多個納什均衡。
DeepNash將強化學習算法與深度神經網絡相結合,以找到納什均衡。強化學習涉及尋找最佳政策,以決定遊戲的每個狀態的行動。為了學習一個最佳政策,DeepNash與自己進行了55億次遊戲。如果一方獲得獎勵,另一方就會受到懲罰,而神經網絡的參數–代表政策–也會相應地進行調整。最終,DeepNash收斂於一個近似的納什均衡狀態。與AlphaGo等之前的遊戲AI不同,DeepNash不會通過遊戲樹搜索來優化自己。
在4月份的兩個星期裡,DeepNash在網絡遊戲平台Gravon上與人類戰略家進行了競爭。在50場比賽之後,DeepNash在2002年以來所有Gravon戰略遊戲玩家中排名第三。”我們的工作表明,像Stratego這樣複雜的遊戲,涉及不完美的信息,不需要搜索技術來解決,”團隊成員、駐巴黎的DeepMind研究員卡爾-圖伊斯說。”這真是人工智能的一大進步。”
“結果令人印象深刻,”總部位於紐約的Meta AI的研究員諾姆-布朗同意,他領導的團隊在2019年報告了玩起了基於撲克的AI Pluribus4。
《強權外交》遊戲的表現
布朗和他在Meta AI的同事將目光投向了一個不同的挑戰:建立一個能玩外交的人工智能,這是一個最多有七個玩家的遊戲,每個玩家代表一戰前歐洲的一個大國。目標是通過移動單位(艦隊和軍隊)獲得對供應中心的控制。重要的是,該遊戲需要玩家之間的私下交流和積極合作,與圍棋或戰略遊戲等雙人遊戲不同。
“當你超越雙人零和遊戲時,納什均衡的概念對於與人類打好關係不再那麼有用,”布朗說。
因此,該團隊根據涉及人類玩家的在線版《強權外交》遊戲的125261場數據訓練其人工智能–名為Cicero。結合這些數據和一些自我遊戲數據,Cicero的戰略推理模塊(SRM)學會了預測,對於給定的遊戲狀態和累積的信息,其他玩家的可能政策。利用這種預測,SRM選擇了一個最佳的行動,並向Cicero的對話模塊發出了它的”意圖”。
對話模塊建立在一個27億個參數的語言模型上,該模型在互聯網的文本上進行了預訓練,然後利用人們玩的外交遊戲的信息進行微調。考慮到來自SRM的意圖,該模塊產生了一個對話信息(例如,代表英國的西塞羅可能會問法國。”你想支持我加入比利時一方嗎?”)。
在11月22日的《科學》論文中,該團隊報告說,在40場在線遊戲中,”Cicero AI取得了比人類玩家的平均分數高一倍以上的成績,並在參加過多場遊戲的參與者中排名前10%”。
真實世界的行為
布朗認為,能夠與人類互動並對人類的次優甚至非理性行為進行解釋的玩遊戲的人工智能可以為現實世界的應用鋪平道路。他說:”如果你正在製造一輛自動駕駛汽車,你不想假設道路上的所有其他司機都是完全理性的,並且會表現得很好。Cicero是朝著這個方向邁出的一大步。我們仍然有一隻腳在遊戲世界裡,但現在我們也有一隻腳在現實世界裡。”
威爾曼同意這一看法,但他說還需要更多的工作。他說:”這些技術中的許多確實與娛樂遊戲之外的現實世界應用有關,儘管如此,在某些時候,領先的人工智能研究實驗室需要超越娛樂環境,並找出如何衡量我們真正關心的更小的現實世界’遊戲’的科學進展。”