Google I/O上的圖靈獎得主:機器智能真會夢到電子羊
在Google I/O 2019 的第三天,圖靈獎最新得主、Google Brain 高級研究員Geoffrey Hinton 在現場同《連線》雜誌現任主編Nicholas Thompson 進行了一場對話訪談。儘管是開發者大會的最後一天,而且訪談被安排到了午飯時段,但這仍成為了本年度Google I/O 除首日官方keynote 之外最引人關注的一場活動。
Hinton 在上世紀80 年代提出了以人工神經網絡作為機器學習研究基石的想法,但在之後的很長時間裡,他的觀點都被學界和業界視為’邊緣事物’,甚至是一種’一廂情願’。直到進入新世紀,隨著計算機運行的速度的大幅提升,深度神經網絡有了海量可供訓練的數據,人工智能終於迎來了新局面。
2012 年,Hinton 帶領兩名學生提出深度卷積神經網絡模型AlexNet,在圖片識別上取得了重大突破,他多年研究工作的重要性才被整個業界認可。除了戴上’深度學習教父’的花冠,Hinton 在兩個月前同Yoshua Bengio 和Yann LeCun 一起,被授予了2018 年圖靈獎。
Yann LeCun, Geoff Hinton, and Yoshua Bengio | WIRED
因為背痛而多年都只能站立工作的Hinton 站著完成了這場對話,就像在現場介紹視頻裡他調侃的那樣,他遠遠領先於當下的’潮流’。在他的專業領域也是同樣。圖靈獎之後,這位鮮少接受采訪的天才在這次對話中談到了自己的研究,對機器智能的信心和期望,以及未來的世界和夢境的啟迪。
以下是極客公園前方記者從現場發回的訪談實錄,經極客公園編輯整理,有刪減。
Q:Nicholas Thompson
A:Geoffrey Hinton
Geoff Hinton 亮相Google I/O | 極客公園前線記者
Q:20 年前,當你發表了一些有影響力的文章。每個人都說,這是個好點子,但是事實上我們沒法這樣設計計算機。跟我們聊一聊,你為什麼堅持,為什麼你就相信自己的發現很重要?
A:實際上那是40 年前了。對我來說,人腦工作只有一種方式——通過學習神經元之間連接強度來工作。如果你想要一件設備做一些智能的工作,你有兩個選擇,你可以自己編程或者讓機器自己學習,我們當然不選擇編程,我們只能想辦法讓機器學習。所以(我認為)這一定是正確的方式。
Q:在座的大多數人對神經網絡都很熟悉了,但還是請你解釋一下最初的想法,以及它是如何在你的腦海中形成的。
A:相對簡單的處理元素,也就是鬆散的神經元,它們連接在一起,每個連接點都有一個權重(weight),通過改變連接點上的權重去學習。神經元所做的是將連接點上的活動乘以權重,把它們加起來,然後決定是否發送一個輸出。如果和足夠大,就發送一個輸出,如果和是負的,它就什麼也不發送。你需要做的就是把無數的權重連接起來,然後找到調節權重的方法,然後神經網絡就能做一切事情。所以這就是一個調節權重的問題。
Q:那麼,你是什麼時候開始知道它的工作原理是近似大腦的呢?
A:神經網絡一直是這樣設計的,它模擬了大腦工作原理。
Q:所以在你職業生涯的某個時候,你開始了解大腦是如何工作的,也許是在你12 歲的時候,也許是在你25 歲的時候,你什麼時候決定用計算機模擬大腦工作原理?
A:這就是問題的關鍵。神經網絡的整個想法是有一個像大腦一樣學習的設備,像人們認為大腦通過改變連接強度來學習一樣,這不是我的想法。圖靈也有同樣的想法,儘管他發明了很多標準計算機科學的基礎,他相信大腦是一個沒有組織,有隨機權重的裝置,它使用強化學習的方式來改變連接,它會學習一切。他認為這是獲得智能的最佳途徑。
Q:所以你遵循圖靈的想法,製造機器最好的方法就是模仿人類的大腦。這就是人腦的工作原理,讓我們造一個這樣的機器。
A:這不僅僅是圖靈的想法,很多人也這樣想。
Q:所以你有這樣的想法,很多人都有這樣的想法。你在80 年代末得到了很多讚譽,因為出版的作品而出名,對嗎?
A:是的。
Q:最黑暗是什麼時候?那些曾經支持圖靈想法的人都開始退縮了,但你卻繼續向前是什麼時候?
A:總有一群人一直相信它,尤其是在心理學專業。但是在計算機科學家中,我想在90 年代,當時數據集非常小,計算機沒有那麼快。在小數據集處理上,其他的方法,比如支持向量機(support vector machines)能達到更好的效果,不會被噪音影響。這非常令人沮喪,因為我們在80 年代發展了反向傳播(back propagation),我們本認為這項技術可以解決所有問題,但是結果相反。這只是一個規模的問題,但我們當時並不真正了解它們。
Q:那你為什麼認為這行不通呢?
A:這是因為我們沒有非常正確的算法,我們沒有正確的目標函數。我認為很長一段時間以來,因為我們試圖進行監督學習,你必須給數據貼上標籤,而我們本應該進行無監督學習,你只需要從沒有標籤的數據中學習,最後發現這主要是一個規模的問題。
Q:這很有趣,問題是你沒有足夠的數據。你認為你有足夠的數據但是你沒有正確地標記它。所以你只是誤解了問題?
A:我認為使用標籤是錯誤的,你不應該利用標籤的前提下完成大部分學習,而是基於數據嘗試模擬結構。我仍然相信,隨著計算機速度越來越快,任何給定的數據集,只要計算機足夠快,你能更好地做無監督式學習,一旦你完成了無監督式學習,你將以來更少的標籤學習。
Q:所以90 年代,你還是在做研究,仍然在學術界發表研究。但是沒有非常大的突破,你曾經想過放棄深度學習的研究,去做一些別的事情嗎?
A:這樣的工作是一定要去做的,我的意思是大腦學習神經元的連接,我們必須要把這件事弄懂。也許還有很多學習連接強度的方法,大腦用了其中一種,也會有其他的方法。但是你總得學會一種方法,我從沒有懷疑過這一點。
Q:那好,你從來不懷疑,那是什麼時候開始,你所堅持的有了成果?
A:80 年代,如果你建造的網絡有很多隱藏層,你無法訓練它們。Yann LeCun 開發了卷積神經網絡(CNN)只能訓練相當簡單的任務,比如實現機器讀取手寫,但是大部分深度網絡,我們是不知道如何訓練它們的。
2005 年的時候,我研究出一種深層網絡的無監督式訓練方法,比如你輸入像素值,然後能學習一組特徵探測器(feature detectors),能夠解釋像素值為什麼有這樣的特徵,然後你把這組特徵探測器作為數據,你學習到另一組特徵探測器,我們能解釋這些特徵探測器為什麼有這些相關性。然後你繼續一層一層的學習。有趣的是,你可以做數學計算並且證明,每一次你得到的層不一定具有比上次更好的數據模型,但是你在不斷遞進。
Q:我知道了,就是你在做觀察,結果不是正確的,但是它們越來越接近正確。就比如,我對著觀眾來做一些概括,不是一下子就正確的,但是我會做的越來越好。大體上是這個意思嗎?
A:大概是。
Q:2005 年的時候,你在數學上取得了突破。什麼時候開始你得到了正確的答案,你在運算什麼樣的數據,你在語音數據上邁出了自己的第一步突破。
A:這僅僅是大量的數據,非常簡單的測量。大約同期,他們開始在研發GPU,研究神經網絡的人大約在2007 年使用GPU。我有一個非常優秀的學生利用GPU 在航空遙感圖像中尋找道路。他寫了一些代碼,然後被其他學生加以復用,在語音中識別音位,然後他們使用Pre-Training 的想法,做完Pre-Training 後,把標籤貼在上面,使用反向傳播。事實證明,基於Pre-Training 你可得到好的深層網絡,然後使用反向傳播,得出的結果確實打敗了當時語音識別的標準,起初,只是領先了非常小的一步。
Q:它打敗了最好的商業可用語音識別,還是打敗了語音識別的學術研究?
A:在一個相對小的叫做TIMIT 的數據集上,表現略好於最優秀的學術研究,同時也好於IBM 的成果。很快,人們意識到這個發展了30 年的技術正在打敗標準模型,只要再往前進一步就會發展得更好。
所以我的研究生們去了微軟,IBM,Google,Google是最快轉向生產語音識別器的。到2012年成果在Android展現了出現,從2009年提出發展了3年的時間,Android突然變得更加擅長語音識別。
Q:所以,你從四十年前萌生了這個技術概念,自從你發表文章也過去了20 年,你終於領先於你的同行們,你當時是什麼心情?
A:我有這個想法才30 年。
Q:哈哈,是的,30 年,這還是’新’點子。
A:它終於在一個真正的難題上達到了最先進的水平,這感覺真好。
Q:當你開始把它應用到其他問題上時,你意識到了它在語音識別上是有效的。
A:我來舉幾個例子吧。最早從事語音識別研究的人之一的George Dahl 把深度學習應用到分子領域,你想要預測該分子是否會與某種物質結合成一種很好的藥物。當時有一場比賽,他把我們為美國心臟協會設計的標準技術應用到預測藥物的活動上,他們的勝利是一個標誌,標誌著深度學習可以得到普遍地應用。我有一個學生叫做Ilya Sutskever 跟我說,Geoff 你知道嗎?深度學習要應用在圖片識別中,李飛飛已經創建了正確的數據集,公開的競爭開始了,我們必須要做。所以我們基於Yann LeCun 的理論研發了一項技術方法,我的一個學生叫做Alex Krizhevsky,他真的是一個魔法師,擅長編程CPU,我們得到的結果比2012 年的標準計算機視覺要好得多。
Q:建模,化學,語音。這是它成功的三個領域。那它在哪些領域失敗了?
A:失敗只是暫時的。
Q:它在哪個領域失敗過?(笑)
A:比如機器翻譯,我想我們需要花很長的時間才能成功。比如,你有一串符號進來,又有一串符號出去,在這兩者之間,你對一串符號進行操作,這是很合理的,這就是經典的AI。事實上,它並不是這樣運行。符號串進來,你把它們變成你大腦中巨大的矢量(vectors),這些矢量相互作用,然後你把它們轉換回來,而不是把符號串轉換出去。如果你在2012 年和我說,在接下來的5 年時間裡,要用相同的技術實現在多種語言之間進行翻譯的效果,Recurrent Net(循環神經網絡),但如果只是隨機初始權重的隨機梯度下降,我不相信事情會發生得比我們預料的要快得多。
Q:所以,最快的領域和最耗時的領域都有什麼區別,比如像視覺處理,語音識別,是我們利用感官感知做的核心人類活動,這會是第一個要清除的障礙嗎?
A:其他的事情比如運動控制,我們人類擅長運動控制,但是深度學習最終也會取勝。抽象推理,我認為是我們最後要學習的一件事。
人類能做的事情,神經網絡也能做’| Google I/O
Q:所以你一直說神經網絡最終會贏得一切?
A:我們擁有自己的神經網絡,對嗎?人類能做的事情,神經網絡也能做。
Q:人腦未必是有史以來最高效的計算機,有沒有一種建模機器的方法比人腦的效率更高?
A:從哲學上來講,我不反對可以用完全不同的方法來做這一切的觀點。這種方法可能是,你從邏輯開始,你嘗試自動化邏輯,做了一些很好的改進,你進行推理然後決定通過推理來進行視覺感知。這種方法有可能會成功,但結果卻是沒有成功。但我並不反對哲學上的勝利,只是我們知道大腦做不到。
Q:但也有一些事情是我們的大腦做不好的,這些事會不會神經網絡也做不好?
A:很有可能。
Q:還有一個單獨的問題,我們完全不知道這些東西是如何工作的,我們不明白自頂向下的神經網絡。
A:可以看一下現在的機器視覺系統。大多數基本上是前饋的,它們不用反饋鏈接。目前的機器視覺系統還有一點就是,它們非常容易出現對抗性的例子。你可以稍稍改變幾個像素,比如一張熊貓的照片,你看它是熊貓,但機器就突然說它是鴕鳥,但問題是你知道這是個熊貓。最開始我們以為這些機器沒問題,然後出現了類似熊貓鴕鳥但問題以後,我們又開始有些擔心。
我認為這部分問題在於,它們沒有從高級但表徵中重建,它們試圖做有區別的學習,你只需要學習一層又一層的特徵檢測器,整個目標就是改變權重,這樣你就能更好地得到正確的答案。他們並沒有在每一層的特徵檢測器上做類似的事情,檢查一下你是否可以從這些特徵檢測器的活動中重構底層的數據。
最近在多倫多,我們發現,或者尼克·弗羅斯特(Nick Frost)發現,如果你引入重建,它會幫助你更好地抵禦連環攻擊。所以我認為在人類的視角,我們在學習時會做重建重構,也因為我們通過重構進行了大量的學習,所以我們對對抗攻擊更有抵抗力。
Q:我們來聊一個更大眾的話題。現在神經網絡就能解決各種各樣的問題了,人類大腦中是否有任何奧秘是神經網絡無法捕捉到的?
A:沒有。
Q:沒有?所以比如情感,愛,意識都能通過神經網絡重構?
A:當然。一旦你弄明白了這些東西是什麼。我們就是神經網絡,不是嗎?
另外,意識,我對這個很感興趣。人們其實並不知道它是什麼,人們對意識也有各種各樣的解釋,我覺得這是個未得到科學驗證的術語。比方說一百年前,你問人們,生命是什麼?他們會說,所有生物都有生命力,一旦死去,生命力就飄走了,這就是生與死的區別,就是你有沒有這種生命力。
現在呢?現在我們不會說自己有什么生命力,我們會覺得這是個迷信的說法,現在我們懂了生物化學,懂了分子生物學,我們不需要生命力來解釋生命了。我覺得意識也是這個道理。我覺得’意識’是用某種特殊的本質來嘗試解釋心理現象,而一旦我們用科學解釋了意識,你就不需要這種’特殊的本質’了。
Nicholas Thompson, Geoffrey Hinton | 極客公園前線記者
Q:說到研究人腦來改進電腦,我們其實是在研究什麼?反過來會怎樣?我們能不能從對電腦的研究中學到如何改進我們的大腦?
A:我認為我們在過去10 年裡學到的東西是,比如你採用一個包含數十億個參數的系統,並且在一些目標函數中做隨機梯度下降(Stochastic Gradient Descent),而目標函數可能會獲得正確的標籤,以填補他們在一串字符中的空白。任何舊的目標函數(都可以)。它的效果比你想像的要好得多。大多數傳統人工智能的人和你一樣,都會想,取一個有十億個參數的系統,從隨機值開始,測量目標函數的梯度,也就是每個參數的梯度,計算出如果你稍微改變這個參數目標函數會發生什麼變化。然後在這個方向上改變它來改善目標函數。你可能會認為這是一種毫無希望的算法,他們會陷入困境,但事實證明這是一種非常好的算法,你把東西縮放得越大,它的效果就越好,這只是一個經驗發現。有一些理論,但它在目前基本還是一個經驗發現,因為我們已經發現,它使它更合理,大腦正在計算一些目標功能的梯度,並更新突觸強度的權重,以遵循梯度。我們只需要算出它是如何得到梯度的以及目標函數是什麼。
Q:但是我們不了解大腦。
A:它是一種理論,是很久以前的事了,所以它是一種可能性。但是在後台總有一種傳統的計算機科學家說是的, 但是這一切都是隨機的你只是學習它的想法通過梯度下降的方法學習,這對十億參數來說是行不通的。你必須連接器很多知識,我們現在知道這是錯的,你可以填寫隨機參數和學習一切。
Q:我們把它展開來講。隨著我們了解的越來越多,當我們對基於我們認為它是如何運作的模型進行這些大規模的測試時,我們可能會了解更多關於人類大腦是如何運作的。一旦我們更好地理解了它,我們是否可以從根本上重新構造我們的大腦,使其更像最高效的機器,或者改變我們的思維方式?它使用的關係應該很簡單,但不是在模擬中。
A:你會覺得,如果我們真正了解正在發生的事情,我們就應該能夠讓教育等方面變得更好,我認為我們會做到這一點。如果你能最終理解你的大腦在做什麼,它是如何學習的,它為什麼不能適應環境以更好地學習,那將是非常有意思的。
Q:我們先別到太遠的未來,在未來幾年,你認為我們將如何利用我們對大腦和深度學習的了解來改變教育的功能?你將如何讓課堂發生變化?
A:幾年之內,我不確定我們能學到多少。我認為這會改變教育,不過會需要更長的時間。但是如果你想一想,你會發現虛擬助理正在變得越來越聰明,一旦系統能夠真正理解對話,虛擬助理就可以和孩子們對話並教育他們。所以我認為,我學到的大部分新知識都來自於思考,我在思考,在谷歌上輸入一些東西,然後谷歌會告訴我。你只需要通過對話來獲得更好的知識。
Q:理論上,當我們能更了解大腦時,你就可以對虛擬助手進行改進、編程,經過學習,虛擬助手就能與孩子們進行更好的對話。
A:是的,這方面我沒有想太多,不是我的專業領域,但對我來說似乎很合理。
Q:我們也將能夠理解夢是如何運作的,這是最大的謎團之一。所以機器人確實可以夢到電子羊。最後一個問題。我聽過你的一個播客節目,你說你最珍惜的就是那些剛進入你實驗室的年輕研究生們的想法,因為他們不會被禁錮在舊的觀念裡,有很多新的想法,而且他們也懂很多。你是不是會在自己的研究以外尋找一些靈感?你會覺得自己有局限嗎?會不會有跟你一起工作的研究生新人,甚至這個房間裡的人過來,說不認可你的觀點?
A:嗯,我說的一切(都有人反對)。(場下笑)
深度學習現在已經變成人工智能的同義詞了| WIRED
Q:我們還有一個單獨的問題。深度學習曾經是個獨立的名詞,但是現在它已經變成人工智能的同義詞了,而且現在人工智能也變成了一種市場營銷的宣傳手段,含義已經變成隨便怎麼用機器,都敢說自己是人工智能了。作為開創了這個領域的人,你怎麼看這個專業術語的變化?
A:曾經人工智能意味著,你受到邏輯上對啟發,對符號字符串進行操作。然後神經網絡,是說你想要讓機器在神經網絡中學習。這兩個是完全不一樣的企業,而且兩個門類關係還不大好,經常搶投資,我就成長在這樣的環境裡,那會我會開心很多。現在,我看到不少人過去噴我們神經網絡沒啥用的人,現在張口閉口’我是個AI 教授,我需要錢。’這挺煩人的。
Q:你的意思是,你研究的領域成功了,某種程度上吞併了其他領域,這也給其他領域的研究者們鑽了空子,他們可以藉著東風要投資了,這會讓你有些鬱悶?
A:嗯,不過這麼說也不公平,因為他們中很多人也轉變了。
Q:我發現我還有一個問題的時間。在剛剛我說的那個播客節目裡,你說你會覺得AI 就像一個挖掘機,要么挖好一個洞,要么一鏟子把自己弄死了。關鍵就是怎麼設計好這個挖掘機,讓它成功地挖一個洞,而不是一不小心把自己錘了。你覺得在你的工作中,哪些時候會做出這種’關鍵的’決定?
A:我應該永遠不會有意(用AI)製造武器。你可以設計一個挖掘機,輕輕鬆鬆就把人頭給鏟了,我覺得那麼用挖掘機太糟糕了,我絕不會在這個方向上研究。