DeepMind人工智能新突破:沒有預設規則也能掌握圍棋、Atari遊戲等
對於那些認為人工智能是威脅的人來說,可能不太喜歡DeepMind的最新研究成果。這家隸屬於Alphabet的人工智能部門提出了名為MuZero的新算法,能夠讓機器在不了解規則的情況下成功擊敗人類選手。這絕對是人工智能領域的一個驚人發展,因為該算法能夠讓人工智能更好地的應對現實生活中的場景,而且不需要提供任何特定的算法。
DeepMind 在探索人工智能的道路上從未停止腳步。在AlphaGo 學會圍棋並成功擊敗職業圍棋手之後,DeepMind 又推出了AlphaGo Zero,通過觀察人和人之間的真實比賽,然後讓兩台計算機一同來下棋。
隨後,該團隊再次推出了AlphaZero,只是在告知遊戲規則的情況下,實現了對圍棋、將棋和國際象棋的熟練掌握。而現在該團隊推出的MuZero,並沒有告知任何的棋類運行規則,讓它自己通過觀察來掌握圍棋、國際象棋、將棋和Atari 遊戲。
MuZero 在沒有傳授規則的情況下可以自己學習,制定相應的計劃並取得勝利。MuZero 可以在雅達利遊戲中做同樣的事情。新的人工智能在學習了規則之後,可以變得和以前的版本一樣好,甚至比以前的版本更好。
這個項目的目標是提供一個單一的算法,可以讓AI在不知道該方案的規則的情況下想出下一步行動。對於象棋和圍棋這樣的遊戲來說,這可能說起來容易做起來難,因為在這些遊戲中,有一套預定義的動作可以讓你獲得勝利或失敗。但在大多數現實世界的情況下,如果沒有獲得複雜的算法,人工智能可能難以駕馭更多的種類,而這種算法基本上可以讓它思考。
但事實上MuZero 並不會自己思考,更沒有達到科幻小說/電影中可怕的人工智能。然而,DeepMind確實達到了一個重要的里程碑,如果它的算法允許計算機在它不知道所有規則的模擬中提出一個勝利的解決方案。
Engadget解釋說,MuZero在做決定時會考慮三件事。首先,它會考慮上一次行動的結果、當前所處的位置以及下一次行動的最佳方案。DeepMind發現,MuZero與之前的AIs相匹配。而且,它的時間越多,它提供的解決方案就越好。即使加入了時間限制,比如在行動前限制吃豆人女士的模擬次數,MuZero也取得了不錯的效果。