AlphaGo之父對話《連線》 曾被導師勸阻研究強化學習
本週,DeepMind的MuZero通過了同行評審,發表在了最新一期的Nature雜誌上。MuZero是一個通用的遊戲AI,它在圍棋、象棋、將棋和57款Atari遊戲上都超過了人類的表現。而且這個AI事先不需要事先知道規則。
David Silver
文/曉查編譯整理
來源:量子位(ID:QbitAI)
近日,DeepMind的首席科學家、AlphaGo首席研究員David Silver接受了《連線》雜誌的採訪,討論了MuZero、強化學習以及對未來通用人工智能的看法。
David Silver畢業於劍橋大學,在那裡與DeepMind創始人Demis Hassabis成為朋友。
Silver曾領導DeepMind的強化學習研究小組,由於在計算機遊戲領域的突破性進展,他獲得了2019年ACM計算獎。
為何MuZero很重要
連線:MuZero發表在Nature雜誌上。對於不了解此事人,告訴我們為什麼它很重要。
David Silver:MuZero向前邁出的重要一步是,我們沒有告訴它環境的動態。它必須自己想辦法,讓自己提前計劃,想出最有效的策略。
我們希望擁有在現實世界中可以運行的算法,而現實世界卻是複雜、混亂且未知的。所以你不能只向前看,就像下棋一樣。你必須學會這個世界是如何運轉的。
一些觀察人士指出,MuZero、AlphaGo和AlphaZero並非真正零開始。它們使用聰明人設計的算法來學習如何執行特定任務。這是不是錯過了重點?
我認為確實如此。從來沒有真正的一片空白。機器學習中甚至有一個定理——沒有自由午餐定理,就是說你必須從某件事開始,否則將一事無成。
但是在這種情況下,它是空白的。我們為它提供了一個神經網絡,而神經網絡必須從遊戲的輸贏或或分數的反饋中學會如何理解世界。
人們注意到的一件事是,我們告訴MuZero在每種情況下的合法舉動。但是,如果你進行解決未知問題的強化學習,通常會告知智能體可以做什麼。您必須告訴智能體它有哪些選擇,然後讓它再選擇其中之一。
您可能會批評到目前為止我們已經做了什麼。現實世界非常複雜,我們還沒有建立像人類大腦那樣可以適應所有這些事物的東西。所以這是一個公平的批評。
但是我認為MuZero確實自己找到瞭如何建立模型,並且從第一性原理去理解它。
MuZero有何實際用途
DeepMind最近宣布,已利用AlphaZero背後的技術解決了一個重要的實際問題:預測蛋白質折疊的形狀。你認為MuZero將在哪方面產生首個重大影響?
當然,我們正在尋找將MuZero應用到現實世界中的方法,並且有一些令人鼓舞的初步結果。
舉一個具體的例子,互聯網上的流量主要是視頻,而一個開放的大問題是如何盡可能有效地壓縮這些視頻。您可以將其視為強化學習問題,因為有許多非常複雜的程序可以壓縮視頻,但是你接下來看到的是未知的。
但是當你把像MuZero之類的東西應用於其中時,我們的初步結果顯示,在節省大量數據方面它看起來很有希望,可能是壓縮視頻所用比特的5%左右。
從長遠來看,您認為強化學習對哪些方面影響最大?
我認為有一個系統,可以幫助用戶盡可能有效地實現目標。一個真正強大的系統,可以看到你看到的所有事物,具有與你相同的感官,能夠幫助你實現人生目標。我認為那是非常重要的。
從長遠來看,另一個變革性的東西可以提供個性化的醫療保健解決方案。有一些隱私和道德問題需要解決,但是它將具有巨大的變革價值;它將改變醫學的面貌和人們的生活質量。
你認為機器在你的有生之年能學會做什麼嗎?
我不想給它設定一個時間表,但我想說,人類能做到的一切,我最終認為機器都能做到。大腦是一個計算過程,我認為那裡沒有任何魔法。
我們能達到像人腦一樣理解和實現算法有效和強大的地步嗎?嗯,我不知道時間表會是怎樣。但是我認為這個旅程是令人興奮的。
我們應該致力於實現這一目標。踏上這段旅程的第一步是試圖理解獲得智慧意味著什麼?解決智力問題,我們在努力解決什麼問題?
強化學習能否通向人工智能
你是否有信心可以從象棋和Atari等遊戲到真正的智能?是什麼讓你認為強化學習會產生有常識理解的機器?
有一個假設,我們稱其為“獎勵足夠”假設。這個假設說,智能的基本過程可以像一個尋求最大化其獎勵的系統一樣簡單,而試圖實現目標並試圖最大化獎勵的過程,足以產生我們在自然智能中看到的所有智能屬性。
這是一個假設,我們不知道它是否正確,但這為研究提供了方向。
如果我們具體地理解常識,那麼“獎勵足夠”的假設就很好地說明了這一點,如果常識對系統有用,則意味著它實際上應該幫助它更好地實現其目標。
聽起來您認為您的專長領域強化學習,在某種意義上是理解或“解決”智力的基礎。是這樣嗎?
我真的認為這非常必要。我認為最大的問題是,這是真的嗎?
因為這顯然違背了許多人對人工智能的看法,即智能中涉及到非常複雜的機制集合,每個機制都有自己要解決的問題或自己特殊的工作方式,或者甚至沒有任何明確的問題定義,比如常識。
這個理論說,不,實際上可能有一個非常清晰和簡單的方法來思考所有的智能,那就是它是一個目標優化系統。如果我們找到了真正優化目標的方法,那麼所有這些其他的東西將會從這個過程中出現。
強化學習已經存在了數十年,但有一段時間似乎是死胡同。實際上,你的一位導師告訴我,她試圖勸阻你不要從事這項工作。你為什麼不理她繼續往前走?
許多人認為,強化學習是可以用來解決在AI中許多問題的工具之一。我不這樣認為,我把強化學習視為整體。如果我們想嘗試並儘可能地描述智能,我認為強化學習本質上是我們真正意義上的智能的特徵。
當您開始以這種方式看它時,我為何不能這樣處理呢?如果這確實是最接近我們所說的智能的東西,那麼如果我們解決它,我們就將破解它。
你看看我所做的工作,我將一直致力於解決這個問題。解決諸如圍棋之類的問題時,在解決它的過程中,我們了解了智能在此過程中意味著什麼。
你可以認為強化學習是一種能力,它使一個智能體能夠獲得所有需要的其他能力。
你可以在類似AlphaGo的東西中看到一點點,在那裡我們要求它做的只是贏得遊戲,然而它學到了人類過去曾專有的知識——比賽的結束和開局。
算力是否會限制AI發展
DeepMind是否有壓力再做一次大型展示,例如AlphaGo?
這是個好問題。這個問題問得好。我覺得我們處於一個非常有利的位置,因為我們的位置和資金都很安全,所有這些都非常非常安全。
嘗試進行一個新的大規模的展示,唯一的壓力是推動通用智能的進步。這是一種真正的特權,當你在創業公司試圖獲得資金時,或者在學術界試圖獲得資助時,你就沒有這種特權。
強大的AI系統現在需要大量的計算機能力才能工作。你是否擔心這會阻礙進展?
讓我們回到MuZero,這是一個算法的例子,它可以很好地隨著計算而伸縮。我們在Atari進行了一項實驗,結果表明即使使用非常少量的計算(大約相當於一個GPU運行幾週),它的效果也非常好,並且獲得了遠遠超過人類的性能。
有一些數字表明,如果把現在能利用的所有計算能力加起來,就能達到與人腦相當的水平。所以可能更多的是我們需要想出更聰明的算法。
而MuZero的美妙之處在於,它正在建立自己的模型,開始了解世界是如何運轉的。這種想像力是利用計算開始展望未來,想像接下來會發生什麼的一種方式。
人工智能倫理
一些軍火商正在利用強化學習來建造更強的武器系統。你對此有何感想?你有沒有想過你的一些作品不應該公開發表?
我反對在任何致命武器中使用AI,並希望我們在禁止致命自動武器方面取得更多進展。DeepMind及其聯合創始人是《致命自動武器承諾》的簽署方,攻擊性技術應始終處於適當的人類控制之下。
然而,我們仍然相信,適當發布我們的方法是科學的基石,通用AI算法的發展將在眾多積極應用中帶來更大的整體社會效益