下一代AlphaGo,裸考也能拿滿分
如果說AlphaGo 確立了AI 的“圍棋霸權”,那懂得自己思考的MuZero,可能會在更多領域確立“霸權”。Google 母公司Alphabet 旗下的DeepMind,在這一個月里大動作頻出。先是在月初推出了蛋白質結構預測AI——AlphaFold 2,這個AI 在CASP 競賽中拔得頭籌,解決了困擾了學界50 年的難題:
生物學家Andrei Lupas 本人花了十年時間,用盡各種實驗方法也沒能弄清楚一種蛋白質折疊後的形狀,但藉助AlphaFold 2 後,他在半個小時內就得到了答案。
接著,在月底,DeepMind 在《自然》雜誌上發布論文介紹“進階版AlphaGo”——MuZero。簡單來說,MuZero 更“通用”了,它精通國際象棋、圍棋、將棋,還能在數十款Atari 遊戲上全面超越過去的AI 算法和人類。但更具革命意義的是,MuZero 不像它的前輩們,它在下棋和遊戲前完全不知道遊戲規則,完全是通過自己的試驗和摸索,洞悉棋局和遊戲的規則,形成自己的決策。換句話說,AI 會自己“動腦子”了。
MuZero 就像是Netflix 熱劇《女王的棋局》裡的貝絲·哈蒙,在完全不知國際象棋規則的情況下,憑藉幾次觀察就把棋盤“畫”在自己的心裡,並通過不斷复盤棋局強化自己的直覺,最終所向披靡。
不知道規則,怎麼贏棋?
2016 年,AlphaGo 橫空出世,以4:1 擊敗韓國頂級棋手李世乭,並在2017 年的烏鎮圍棋峰會上擊敗了世界第一棋手柯潔。中國圍棋協會甚至當即授予AlphaGo 職業圍棋九段的稱號。
AlphaGo 依賴的還是DeepMind 輸入的專家棋法數據集,然後它的繼任者AlphaGo Zero 開始擺脫對“人類數據”的依賴,開始通過多次自我對弈積累所需數據。2018 年底問世的AlphaZero 更是在前兩者的基礎上迭代,除了圍棋,它還學會了將棋和國際象棋。讓人嘆為觀止的是,從第一次見到棋盤,到成為世界級棋類大師,AlphaZero 只用了24 小時。
“但你不能像下棋一樣,只顧著往前看。你必須學習這個世界如何運作。”DeepMind 的首席研究科學家David Silver 告訴《連線》,按照這個思路,他們決定不提前告訴AI 該怎麼贏了,“這是我們第一次打造這種系統”。
上面提到的“Alpha”家族,最早需要“人類數據”、“領域知識”和“遊戲規則”,至少也還需依賴“遊戲規則”。而剛面世的MuZero 則沒有這些知識儲備,就像是下棋被蒙著眼,玩遊戲背著手。
“Alpha”家族至少也還需依賴“遊戲規則”,而剛面世的MuZero 則沒有任何知識儲備|DeepMind
既然MuZero 連怎麼贏棋都不知道,那它又是如何學習世界運作原理的呢?先以AlphaZero 為例,由於它已經知曉棋局的規則,所以它知道一個動作後的下一個棋步是什麼樣的,運用深度學習中的“蒙特卡洛樹搜索”(MCTS)就能評估不同的下棋可能性,並從中選出最優的動作。在這個過程中,AlphaZero 只需要利用“預測網絡”這一神經網絡。
而MuZero 不知道現有的規則,那麼只能從零開始構建一個內部模型,形成自己對棋局的理解。首先,MuZero 會利用“表徵網絡”將自己觀察到的棋步收集起來,轉化為專屬於自己的知識;
接著,利用“預測網絡”形成策略(即最好的“下一步”是什麼),判斷價值(即當前決策“有多好”);
最後,借助“動態網絡”判斷“上一步有多好”,回收此前做出的最佳棋步,不斷完善自己的內部模型。
也就是說,MuZero 並沒有具體的“行事準則”,它就像是一個小孩,在有了一定思考能力的基礎上,正在不斷完善自己的行事準則。在此之前,“AlphaGo”雖能輕鬆擊敗人類,但也只限於圍棋等專精領域,卻無法“觸類旁通”,每遇到新的遊戲都需要更改框架,重新學習。而掌握了“思考方式”的MuZero 顯然能做得更多了,也就是,更通用了。
“知道雨傘能讓人不被淋濕,比能對雨滴建模更有用。”DeepMind 用這句話表示,對AI 來說,它們會的本領看起來越笨,越有實際意義。
在遊戲方面,以研究AI 打撲克出名的FAIR 研究科學家Noam Brown 這樣評價MuZero:“當前人們對遊戲AI 的主要批評是模型不能對現實世界中相互作用進行準確建模。MuZero 優雅而令人信服地克服了這個問題(適用於完美信息遊戲)。我認為,這是可以與AlphaGo 和AlphaZero 相提並論的重大突破!”
這個會思考的AI,能做什麼?
DeepMind 研究表示,MuZero 在不具備任何底層動態知識的情況下,通過結合MCTS 和學得模型,在各種棋類種的精確規劃任務中可以匹敵AlphaZero,甚至超過了提前得知規則的圍棋版AlphaZero 。
在實驗中,只要為MuZero 延長每次行為的時間,它的表現就會變得更好。隨著將每次行動的時間從十分之一秒增加到50 秒,MuZero 的能力會增加1000 Elo(衡量玩家的相對技能),這基本相當於熟練的業餘玩家和最強的職業玩家之間的區別。
開始自我思考的MuZero 就像人一樣。現實世界混沌、複雜,人們也沒有具體的行事手冊,只能摸著石頭過河,慢慢形成自己的規劃能力,進而製定下一步該怎麼做的策略。
那麼,MuZero 能做什麼?
《連線》記者提到了在生化界做了件“大實事”的蛋白質結構預測AI,接著問起了MuZero 的實用價值。David Silver 表示,MuZero 已經投入實際使用,用於尋找一種新的視頻編碼方式,從而完成視頻壓縮。考慮到大量不同的視頻格式和眾多的壓縮模式,能節省5% 的比特已經是極具挑戰的任務。“互聯網上的數據大部分是視頻,那麼如果可以更有效地壓縮視頻,則可以節省大量資金。”由於Google 擁有世界上最大的視頻共享平台YouTube,因此他們很可能將MuZero 其應用到該平台上。
David Silver 對它的造物有足夠的自信|WIRED
David Silver 想得更遠,“一個真正強大的系統,它能看到所有你看到的東西,它有和你一樣的感官,它能夠幫助你實現目標。另外一個變革性的,從長遠來看,(MuZero 的『強化學習』思路)是可以提供個性化的醫療解決方案的東西。有一些隱私和倫理問題必須解決,但它會有巨大的價值,它會改變醫學的面貌和人們的生活質量。”
目前,“Alpha 家族”這種規划算法也已經在物流、化學合成等諸多現實世界領域中產生影響。然而,這些規划算法都依賴於環境的動態變化,如游戲規則或精確的模擬器,導致它們在機器人學、工業控制、智能助理等領域中的應用受到限制。
而不再“循規蹈矩”的MuZero,先摸索規則、建立內部模型再精通的思路,顯然具有更強的可塑性。會自己思考的AI,離通用AI 會更近一些。
“我不想給它設定一個時間尺度,但我想說,人類能實現的一切,我最終認為機器都能實現。大腦完成的只是一個計算過程,我不認為那裡有什麼神奇的東西。”David Silver 對它的造物有足夠的自信。
如果說AlphaGo 確立了AI 的“圍棋霸權”,那懂得自己思考的MuZero,可能會在更多領域確立“霸權”。