DeepMind推出AlphaZero AI:國際象棋/圍棋/將棋通殺
作為AlphaGo的最新迭代,DeepMind又在11月6日發表的《科學》(Science)論文中,隆重介紹了AlphaZero 。作為谷歌母公司Alphabet旗下的英國人工智能子公司,DeepMind多年來一直致力於改進Go AI 。2017年的時候,前AI冠軍AlphaGo正式退休,但在進一步修補之後,AlphaZero又達到了新的頂峰。
AlphaZero是一款能夠從頭學習圍棋、象棋等棋子遊戲的新型人工智能平台。在三款棋類比賽中,AlphaZero將三款AI都挑落下馬。
● Stockfish:國際象棋AI 世界冠軍;
● elmo:2017 年度世界計算機將棋錦標賽冠軍;
● AlphaGo Zero:DeepMind 自家的圍棋AI,被譽為史上最強選手。
在僅僅獲知有關遊戲基本規則的情況下,AlphaZero 在成為人工智能大師之前,會先自己機型數百萬場的對抗練習。
該AI 初期會實施隨機戰術來取得勝利,但後續會通過’強化學習’來試錯,以逐步了解哪些策略是最有效的。
實測國際象棋需要9 小時、將棋12 小時、圍棋13 天,涉及5000 個張量處理單元(TPU)。
作為參考,一套TPU 每天可以處理超過Google Photos 中的1 億+照片,所以AlphaZero 對硬件處理性能的要求還是比較高的。
閉關學習結束後,AlphaZero 就可以大殺四方了。
這項研究的獨特之處在於,研究團隊將機器學習算法、與蒙特卡羅樹(MCTS)的“搜索方法”結合到了一塊。
這是Go 圍棋AI 決定下一步行動所採用的方式,這次DeepMind 團隊在國際象棋和將棋AI 上也套用了同樣的機制,首次展示了該方法適用於其它複雜的遊戲測試。
對於人類國際象棋選手來說,AlphaZero是極具吸引力的。你可以在與機器對戰時,見識到此前從未遇到過的策略、以及一些新穎的想法。
其咄咄逼人的風格、以及高度動態的應變策略,足以讓Matthew Sadler之類的國際象棋大師感到驚訝(其在DeepMind博客上有所表述)。
有關這項研究的詳情,已經發表在近日出版的《科學》(Science)期刊上。原標題為:
《A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play》
《一種通用的強化學習算法,可自學成為國際象棋、將棋、圍棋大師》
[編譯自:Cnet ]