圖靈獎的獲獎者們擔心成為AI領域的“奧本海默”
1947 年,艾倫·圖靈在一次演講中提到「我們想要的是一台能夠從經驗中學習的機器」。 78 年後,以圖靈命名,有著「電腦界諾貝爾獎」之名的圖靈獎,頒給了兩位畢生致力於解決圖靈這一問題的科學家。安德魯·巴托(Andrew Barto)與理查德·薩頓(Richard Sutton)共獲2024 年度圖靈獎,二人是相差九歲的師徒,是AlphaGo 和ChatGPT 技術上的奠基人,也是機器學習領域的技術先驅。

圖靈獎得主安德魯·巴托(Andrew Barto)與理查德·薩頓(Richard Sutton)|圖片來源:圖靈獎官網
Google首席科學家Jeff Dean 在頒獎詞裡寫道“由巴托和薩頓開創的強化學習技術,直接回答了圖靈的問題。他們的工作是過去幾十年AI 進步的關鍵。他們開發的工具仍是AI 繁榮的核心支柱……Google很榮幸贊助ACM AM圖靈獎。”
圖靈獎100 萬美元獎金的唯一贊助方即是Google。
而在獲獎後,站在聚光燈下的兩位科學家卻劍指AI 大公司,他們對媒體發出“獲獎感言”:現在的AI 公司在“受到商業激勵”而非專注於技術研究,在社會上“架起一座未經測試的橋樑,讓人們過橋來測試。”
無獨有偶,圖靈獎上一次頒發給人工智慧領域的科學家,是在2018 屆,約書亞·本希奧、傑弗裡·辛頓、楊立昆三位因在深度學習領域的貢獻而獲獎。

2018 圖靈獎得主們|圖片來源:eurekalert
其中,約書亞·本希奧和傑弗裡·辛頓(也是2024 年諾貝爾物理學獎得主)兩位「人工智慧教父」在最近兩年的AI 浪潮裡,也頻繁地呼籲全球社會和科學界警惕大公司對人工智慧的濫用。
傑弗裡·辛頓更是直接從Google辭了職,以便“暢所欲言”,這次獲獎的桑頓,在2017 – 2023 年也曾任DeepMind 的研究科學家。
當電腦界的最高榮譽一次次被授予給AI 核心技術的奠基者們時,一個耐人尋味的現象逐漸浮現:
為何這些站上巔峰的科學家,總會在聚光燈下轉身敲響AI 的警鐘?
人工智慧的“造橋者”
如果說艾倫·圖靈是人工智慧的引路人,那麼安德魯·巴托和理查·薩頓就是這條路上的「造橋者」。
在人工智慧飛馳之時,在被授予禮贊之後,他們在重新審視自己搭建的橋樑,能否承載人類安全通行?
或許答案正藏在他們跨越半個世紀的學術生涯中——唯有回溯他們如何構建了“機器的學習”,才能理解他們為何警惕“技術的失控”。

圖片來源:卡內基美隆大學
1950 年,艾倫‧圖靈在其著名論文《計算機器與智能》中,開頭就提出一個哲學與技術問題:
“機器能思考嗎? ”
由此,圖靈設計出了「模仿遊戲」即後世廣為人知的「圖靈測試」。
同時圖靈提出,機器智能可以透過學習來獲得,而不是只依賴事先編程。他設想了「兒童機器(Child Machine)」的概念,即透過訓練和經驗,讓機器像孩子一樣逐步學習。
人工智慧的核心目標是建構出能感知、並採取更好行動的智能體,而衡量智能的標準,即智能體有判斷「某些行動比其他行動更好」的能力。
機器學習的目的就在於此,給予機器行動後相應的回饋,並且能讓機器自主地在回饋經驗中學習。換言之,圖靈構思出基於獎勵和懲罰的機器學習方法與巴普洛夫訓狗無異。

我在遊戲裡越玩越敗越強,也是一種「強化學習」|圖片來源:zequance.ai
由圖靈引出的機器學習之路,在三十年後,才由一對師徒建造了橋樑-強化學習(Reinforcement Learning,RL)。
1977 年,安德魯·巴托受到心理學和神經科學的啟發,開始探索一種人類智能的新理論:神經元就像“享樂主義者”,人類大腦內數十億個神經元細胞,每個都試圖最大化快樂(獎勵)並最小化痛苦(懲罰)。而神經元並不是機械地接收訊號和傳遞訊號,如果某個神經元的活動模式導致了正回饋,它就會傾向於重複這個模式,由此共同驅動了人類的學習過程。
到了1980 年代,巴托帶上了他的博士生理查德·薩頓,想把這套「不斷嘗試、根據反饋調整連接,找到最優的行為模式」的神經元理論應用在人工智慧上,強化學習就此誕生。

《強化學習:導論》成為經典教材,已被引用近80,000 次,|圖片來源:IEEE
師徒二人利用馬可夫決策過程的數學基礎,開發並編寫出了許多強化學習的核心演算法,系統地建構出了強化學習的理論框架,也編寫了《強化學習:導論》教科書,讓數萬名研究者得以進入強化學習領域,二者堪稱強化學習之父。
而他們研究強化學習的目的,是為了探尋出高效準確、回報最大化、行動最佳的機器學習方法。
強化學習的“神之一手”
如果說機器學習是「填鴨式」學習,那麼強化學習就是「放養式」學習。
傳統的機器學習,就是給模型被餵大量標註好的數據,建立輸入和輸出之間固定的映射關係。最經典的場景就是給電腦看一堆貓狗的照片,告訴它哪張是貓、哪張是狗,只要投餵足夠多的圖,電腦就會辨認出貓狗。
而強化學習,是在沒有明確指導的情況下,機器透過不斷試誤和獎懲機制,逐漸調整行為來優化結果。就像一個機器人學走路,不需要人類一直告訴它“這步對,那步錯”,它只要嘗試、摔倒、調整,最終自己就會走路了,甚至走出自己獨特的步態。
顯而易見,強化學習的原理更接近人類的智能,就像每個幼童在跌倒裡學會走路,在摸索中學會抓取,在咿呀裡捕捉音節,學會語言。

爆紅的「迴旋踢機器人」背後也是強化學習的訓練|圖片來源:宇樹科技
強化學習的“高光時刻”,正是2016 年AlphaGo 的“神之一”。當時AlphaGo 在與李世石的比賽中,第37 手落下了一步令所有人類驚訝的白棋,一步棋逆轉敗勢,一舉贏下李世石。
圍棋界的頂級高手和解說員們,都沒有預料到AlphaGo 會在該位落子,因為在人類棋手的經驗裡,這步棋下的“莫名其妙”,賽後李世石也承認,自己完全沒有考慮過這個走法。
AlphaGo 不是靠背棋譜背出來的“神之一手”,而是在無數次自我對弈中,試錯、長遠規劃、優化策略後自主探索出來,這既是強化學習的本質。

被AlphaGo 「神之一手」打亂節奏的李世石|圖片來源:AP
強化學習甚至反客為主影響人類智能,就像AlphaGo 露出「神之一」後,棋手開始學習和研究AI 下圍棋的走法。科學家們也正在利用強化學習的演算法和原理,試圖理解人類大腦的學習機制,巴托和桑託的研究成果之一,即建立了一種計算模型,來解釋多巴胺在人類決策和學習中的作用。
而強化學習特別擅長處理規則複雜、狀態多變的環境,並在其中找到最佳解,例如圍棋、自動駕駛、機器人控制、與語焉不詳的人類談笑風生。
這些正是當下最前沿,最熱門的AI 應用領域,尤其是在大語言模型上,幾乎所有領先的大語言模型都使用了RLHF(從人類反饋中強化學習)的訓練方法,即讓人類對模型的回答進行評分,模型根據反饋改進。
但這正是巴託的擔憂所在:大公司建好橋後,用讓人們在橋上來回走的方法,測試橋的安全性。
「在沒有任何保障措施的情況下,把軟體直接推給數百萬用戶,並不是負責任的做法,」巴託在獲獎後的採訪中說道。
「科技的發展本該伴隨著對潛在負面影響的控制和規避,但我並沒有看到這些AI 公司真正做到這一點。」他補充道。
AI 頂流到底在擔心什麼?
AI 威脅論沒完沒了,因為科學家最害怕親手締造的未來失控。
巴托和桑頓的「獲獎感言」裡,並無對當前AI 技術的苛責,而是充斥著對AI 公司的不滿。
他們在訪談中都警告表示,目前人工智慧的發展,是靠大公司爭相推出功能強大但容易犯錯的模型,他們藉此籌集了大量資金,再繼續投入數十億美元,展開晶片和數據的軍備競賽。

各大投行都在重新估值AI 產業|圖片來源:高盛
的確如此,根據德意志銀行的研究,目前科技巨頭在AI 領域的總投資約為3,400 億美元,這一規模已超過希臘的年度GDP。業界領頭羊OpenAI,公司估值達2,600 億美元,正準備展開新一輪400 億美元的新融資。
實際上,許多AI 專家都和巴托和桑頓的觀點不謀而合。
在此之前,微軟前高階主管史蒂芬辛諾夫斯基就曾表示,AI 產業陷入了規模化的困境,靠著燒錢換技術進步,這不符合技術發展史中,成本會逐漸下降而不是上升的趨勢。
就在3 月7 日,由前Google CEO 艾瑞克·施密特、Scale AI 創辦人Alex Wang、AI 安全中心主任丹·亨德里克斯三人聯名發表了一篇警示性論文。
三位科技圈頂流認為,如今人工智慧前沿領域的發展形勢,與催生曼哈頓計畫的核武競賽相似,AI 公司都在悄悄進行自己的“曼哈頓計畫”,過去近十年裡,他們對AI 的投資每年都在翻倍,如不再介入監管,AI 可能成為自核彈以來最不穩定的技術。

《超級智慧策略》及合著者|圖片來源:nationalsecurity.ai
因深度學習在2019 年獲得圖靈獎的約書亞·本希奧,也在博客中發長文警告,如今AI 產業有數萬億美元的價值供資本追逐和搶奪,還有著足以嚴重破壞當前世界秩序的影響力。
諸多技術出身的科技人士,認為如今的AI 產業,已經偏離了對科技的鑽研,對智慧的審視,對科技濫用的警惕,而走向了一種砸錢堆晶片的大資本逐利模式。
「建起龐大的資料中心,收用戶的錢還讓他們用不一定安全的軟體,這不是我認同的動機。」巴託在獲獎後的訪談裡說。
而由30 個國家,75 位AI 專家共撰的第一版《先進人工智慧安全國際科學報告》中寫道「管理通用人工智慧風險的方法往往基於這樣一種假設:人工智慧開發者和政策制定者,可以正確評估AGI 模型和系統的能力和潛在影響。但是,對AGI 的內部運作、能力和社會影響,科學理解其實非常有限。

約書亞‧本希奧的警示長文|圖片來源:Yoshua Bengio
不難看出,如今的“AI 威脅論”,已經把矛頭從技術轉向了大公司。
專家在警告大公司:你們燒錢,堆料,卷參數,但你們真正了解你們開發的產品嗎?這也是巴托和桑頓借用「造橋」比喻的由來,因為科技屬於全人類,但資本只屬於大公司。
何況巴托和桑頓一直以來的研究領域:強化學習。它的原理更貼合人類智能,且具有「黑箱」特色,尤其是在深度強化學習中,AI 行為模式會變得複雜且難以解釋。
這也是人類科學家的擔憂:助力和見證了人工智慧的成長,卻難以解讀它的意圖。
而開創了深度學習和強化學習技術的圖靈獎獲獎者們,也並不是在擔心AGI(通用人工智能)的發展,而是擔心大公司之間的軍備競賽,在AGI 領域造成了“智能爆炸”,一不小心製造出了ASI(超級人工智能),兩者的分野不僅是技術問題,更關乎人類文明的未來命運。
超越人類智慧的ASI,掌握的資訊量、決策速度、自我進化的水平,將遠超人類的理解範圍,如果不對ASI 進行極為謹慎的設計和治理,它可能成為人類歷史上最後一個,也是最無法抗衡的技術奇點。
在AI 狂熱的當下,這些科學家或許是最有資格「潑冷水」的人。畢竟五十年前,在電腦還是個龐然大物時,他們就已經開啟了人工智慧領域的研究,他們從過去塑造了當下,也有立場去懷疑未來。

AI 領導者會迎來奧本海默式的結局嗎? |圖片來源:經濟學人
在2月《經濟學人》的訪談裡,DeepMind 和Anthropic 的CEO 表示:
會因為擔心自己成為下一個奧本海默,而徹夜難眠。