谷歌高管自黑:逼得李世石退役的阿爾法狗真的不算啥
在計算機科學領域,衡量人工智能技術的“智能”是最棘手,也是最重要的問題之一。如果不能確定今天的技術比昨天的技術更聰明,怎麼會知道技術有了進步呢?乍一看,這似乎是一個偽命題。“很顯然,人工智能越來越聰明”是一個答案。
有大量資金和人才湧入人工智能領域,人工智能也獲得了一些里程碑意義的進展,例如戰勝頂尖人類圍棋選手;一些在10年前還不可能解決的問題,目前已司空見慣,例如圖像識別。這些都標誌著人工智能取得了很大進步。
另一種答案是,這些進步真心不是衡量人工智能技術“智商”的好指標。在國際象棋和圍棋領域超過頂尖人類選手確實很了不起,但如果最聰明的計算機在解決常見問題方面的表現還不如幼兒或小白鼠,這又有什麼意義呢?
這是由谷歌軟件工程師、機器學習領域大腕弗朗科斯·喬列特(François Chollet)提出的一種觀點。喬列特是得到廣泛應用的神經網絡開發工具Keras的開發者。
在最近發表的一篇標題為《智商的衡量》的論文中,喬列特闡述了一個觀點,人工智能領域需要重新關注什麼是智商的問題。他說,如果研究人員想要在通用人工智能領域取得進步,他們需要拋棄過去流行的指標,例如視頻遊戲和棋類游戲,開始考慮使人更聰明的技能,例如歸納和適應的能力。
在接受The Verge電子郵件採訪時,喬列特解釋了他在這一問題上的想法,闡述了他認為當前人工智能成就具有“誤導性”的原因、未來我們應當如何衡量人工智能“智商”,以及對超級人工智能的擔憂(代表人物就是埃隆·馬斯克(Elon Musk))會限制公眾想像力的原因。以下是略經編輯的採訪實錄:
人工智能框架Keras開發者弗朗科斯·喬列特
問:在論文中,您闡述了人工智能領域兩種不同的“智能”概念,一種概念把“智能”視作在多種任務方面表現出眾的能力;另一種概念更重視歸納和適應的能力——人工智能對新挑戰作出反應的能力。目前哪種概念影響力更大,後果是什麼?
答:在人工智能發展的前30年,第一種概念更有影響力:智能表現為一組靜態程序和明確的知識。目前,事情發生了180度的變化:人工智能領域對智能的描述是“白板”。令人遺憾的是,這一框架基本上沒有遇到過挑戰,甚至基本上沒有受到過審視。這些問題有很長的歷史——可能是數十年,目前人工智能界對這些歷史基本上一無所知,原因也許是目前從事深度學習工作的大多數人都是在2016年以後進入這一領域的。
這種知識壟斷不是好事,尤其是對知之甚少的科學問題的答案而言。它限制了人們的質疑,限制了人們創新的空間。我認為目前研究人員應該認清事實。
問:在論文中,您還提出了一個觀點:要想進步,人工智能領域需要對智能有一個更好的定義。您認為,研究人員目前專注於靜態測試性能,例如在玩遊戲和下棋方面戰勝人類。您為什麼認為這種衡量智能的方法存在不足?
答:問題在於,一旦選定一個指標,人們會想盡一切辦法改進人工智能在這一指標上的表現。例如,如果把下國際象棋作為衡量人工智能技術智能的指標(在1970至1990年代期間就是如此),最終會得到一個下棋系統,它不會擅長完成其他任務,對我們了解人類智能沒有任何幫助。目前,開發擅長玩《Dota》或《星際爭霸》等遊戲的人工智能技術,也會落入完全相同的智能陷阱。
這種情況或許不明顯,因為對於人類而言,技能和智能密切相關。人類可以利用其通用智能獲得與具體任務相關的技能。一個人棋下得很好,會被認為具有相當高的智能,因為我們知道,他下棋的技能並非天生的,而是藉助通用智能逐步學會下棋的。他的人生目標不是下棋。我們知道,他可以利用通用智能高效地學會完成其他任務所需要的技能。這就是通用智能的威力。
但機器存在一些限制。一台機器可以設計為專門用來下棋的。因此,我們在人類中獲得的推斷——“會下棋,所以一定具有智能”——就不成立了。通用智能可以生成完成特定任務的技能,反之則不成立。對於機器而言,技能不等於智能。只要能獲得與特定任務相關的無限數據(或投入無限的工程資源),機器就可以掌握完成任務的技能。但這不會使它們向通用智能邁近一步。
關鍵的一點是,沒有一種任務能讓機器獲得通用智能,除非是元任務——通過解決大量以前未知的問題獲得新技能,而這正是我提議的衡量人工智能技術智能的指標。
谷歌旗下人工智能實驗室研究人員在觀看AlphaStar在《星際爭霸II》中與人類玩家對戰
問:既然目前這些指標無助於開發具有通用智能的人工智能技術,為什麼它們會被廣泛應用?
答:毫無疑問的是,在知名遊戲中擊敗頂尖人類玩家的人工智能技術開發,主要是由媒體推動的。如果不是公眾對這類華而不實的“里程碑”感興趣,研究人員會從事其他更有意義的工作。
我認為這是令人悲哀的,因為科學研究應當解決尚未解決的科學問題,而不是作秀。如果著手借助深度學習在《魔獸爭霸III》中戰勝頂尖人類玩家,只要獲得足夠的工程技術人才和計算能力,我肯定會成功。不過,即使完成了這一目標,我對智能或歸納會有新的認識嗎?這一問題的答案顯然是否定的,大不了我只是會對大規模深度學習系統有更多技術方面的了解。因此,我真的不認為這屬於科學研究的範疇,因為它沒有使我們獲得新的知識,沒有解決任何懸而未決的問題。
問:您如何看待這些項目的實際成就?對它們的錯誤認識有多嚴重?
答:我發現的一個完全錯誤的認識是,這些會玩遊戲的系統,代表著人工智能技術向著能夠應對實際世界複雜性和不確定性的真正進步,其實完全不是這樣。以OpenAI的OpenAI Five為例,它首先無法應付《Dota 2》的複雜性,因為它是用16個遊戲角色訓練出來的,而整個遊戲包含有逾100個角色。它的訓練量相當於人類玩了4.5萬年《Dota 2》。
如果希望人工智能技術有朝一日能處理現實世界的複雜性和不確定性,我們現在就必須開始考慮這樣的問題:什麼是歸納?在學習系統中如何衡量和使歸納最大化?這與利用10倍的數據訓練大型神經網絡根本不是一回事。
問:更好地衡量智能的指標是什麼?
答:總之,我們需要停止評估人工智能技術在完成特定任務中的技能,而開始評估它們獲得技能的能力。這意味著僅使用系統之前不熟悉的新任務,衡量系統使用先驗知識的能力以及使用樣本的效率。為獲得給定技能所需要的信息(先驗知識和經驗)越少,系統就越智能。目前的人工智能係統並非真的非常聰明。
[我最近的一篇論文]提出了新的測試數據集ARC,看起來很像智商測試。ARC包含一系列推理任務,每個任務通過演示進行解釋,我們應該利用演示完成任務。目前,ARC可以被人完全完成——即使沒有任何口頭解釋或先驗訓練,但迄今為止沒有一項人工智能技術能通過這一測試。
喬列特的ARC人工智能測試數據集
問:您認為只堆積算力人工智能技術可以繼續發展嗎?有些人認為,從歷史上看,這一直是提高人工智能係統性能的最成功方法。而另一些人認為,如果繼續只依靠堆積算力,我們很快會發現收益會出現遞減。
答:對於解決特定任務而言,這絕對是千真萬確的。在一個垂直任務上投入更多訓練數據和算力,將使任務完成得更漂亮。但對於提高人工智能係統的歸納能力來說,增加算力無濟於事。
以自動駕駛汽車為例,數以百萬計的訓練,不足以生成能夠安全駕駛汽車的端到端深度學習模式。這就是為什麼L5級自動駕駛汽車還沒有問世的原因。如果深度學習模型會推理,L5級自動駕駛汽車早在2016年就該問世了。
自動駕駛汽車的發展遠慢於許多人的想像
問:鑑於您討論了當前人工智能係統面臨的約束,我想問一下您對超級智能的看法——擔心異常強大的人工智能係統,會在不遠的將來威脅人類,您認為這樣的擔心合乎情理嗎?
答:這一問題的答案是否定的,我不認為有關超級智能的說法有理有據。我們從未開發出完全自主的智能係統,也沒有任何跡象表明我們在可預見的未來能夠開發出這樣的系統。當前人工智能技術的進步,不會導致這樣的系統。即使在遙遠的未來能夠開發出這樣的系統,目前我們也絕對沒有辦法推測它的特點。