2028年人類將迎來AGI:DeepMind聯合創始人長文預測未來AI發展
AGI如何定義、又何時到來?來自GoogleDeepMind的創始人兼首席AGI科學家Shane Legg向我們描述了當下我們與AGI的距離。10月26日,在X上有三萬訂閱的Dwarkesh Podcast(矮人播客)主持人Dwarkesh Patel採訪了GoogleDeepMind的創始人兼首席AGI科學家Shane Legg。
他們討論了AGI出現的時間節點、可能的AGI新架構、作為下一個行業標竿的多模態、如何讓超越人類的模型進行對齊以及Deepmind在模型能力和安全之間的抉擇。
而在前不久,《華爾街日報》與OpenAI的CEO Sam Altman和CTO Mira Murati共同探討了有關AGI的未來(連結)。
一場又一場的AGI討論盛宴接連不斷,曾經只存在於科幻作品中的AGI,似乎近在眼前了。
01 AGI的定義以及發生節點
在衡量AGI的進展之前,需要先對AGI進行定義。
AGI,即通用人工智慧。但對於什麼是「通用」的,卻有很多不同的定義,這讓回答AGI是什麼變得非常困難。
Shane Legg認為,能夠執行一般人類完成的認知任務、甚至超越這個範圍以上的,就可以認為是AGI。
由此可以得到,要測試AI是否正在接近或達到這個閾值,我們需要對其進行不同類型的、涵蓋人類認知廣度的測量。
但這非常困難,因為我們永遠不會擁有人們「能做到的事」的完整集合,這個範圍太過於龐大而且還在不斷更新。
因此,在判斷是否為AGI時,如果一個人工智慧系統在所有能提出的人類認知任務上達到了人類的表現水平,就可以認為這就是AGI。
在通常的理解中,可能存在有一些事情是人類可以做到但機器做不到的。但當我們窮盡各種嘗試也找不到這樣的「事」後,人類就擁有了通用人工智慧。
但在實際的測量中我們仍不能提出包含人類全部認知水平的任務,如著名的基準測試:測量大規模多任務語言理解(Measuring Massive Multitask Language Understanding,MMLU)儘管包含了多項人類知識領域,但缺乏語言模型對串流影片的理解。
這類任務的缺失也指出了一個問題:現在的語言模型不像人類擁有情境記憶。
我們的記憶包括工作記憶,即最近發生的事情;皮質記憶存在於大腦皮質中。在工作記憶到皮質記憶之間還有一個系統,就是情景記憶,由海馬體負責。
情景記憶主要用於快速學習和記住特定的事件或訊息,它允許我們在不同時間點回想起過去發生的事情,就像你可以回憶起畢業典禮的場景,包括穿著學士袍的樣子、畢業帽的顏色、畢業典禮演講者的言辭,以及與同學們一起慶祝的情景。
情節記憶在幫助我們建立個人經驗和學習新資訊方面起著重要作用。
但模型並不具備這樣的功能,只是透過增加情境視窗的長度(更像是工作記憶)來彌補模型記憶的缺陷。
從另一個角度來說,情景記憶幫助人類擁有非常高的樣本效率,可以從較少的樣本中學到更多的資訊。
對於大型語言模型而言,它們也可以在上下文視窗中利用訊息,以實現某種程度的樣本效率,但這與人類的學習方式略有不同。
模型能夠在它們的上下文視窗中迅速學習訊息,這是一種快速的、局部的學習過程,可以幫助它們在特定上下文中適應。
但在實際的模型訓練時,它們會經歷一個更長的過程,處理數萬億個標記的數據,以更全面地學習語言的結構和規律。
而這兩個階段之間可能會存在某些學習機製或過程的缺失,這可能導致模型在某些情況下無法很好地理解或處理資訊。
但Shane Legg並不認為模型不具備情境記憶會是一種基礎限制。
相較於過去,大型語言模型發生了根本性的變化。現在,我們知道如何建立具有一定理解程度的模型,擁有可擴展的方法來實現這一點,從而為解鎖許多全新的可能性打開了大門。
「現在我們有相對清晰的前進路徑,可以解決現有模型中大部分不足之處,無論是關於妄想、事實性、它們所具備的記憶和學習方式,還是理解視頻等各種各樣的事情。
我們只需要更多的研究和工作,所有這些問題都將得到改善,或迎刃而解。」
回到一開始的問題:如何衡量人工智慧何時達到或超越人類水準?
Shane Legg表示,「這不是單一的因素就可以解決的,而這就是問題的本質。
因為它涉及了通用智能。我們必須確保它可以完成許多不同的任務,並且不會出現即使一個漏洞。」
我們已經擁有可以在某些領域表現非常令人印象深刻,甚至超越人類等級的系統。
Shane Legg表示,他想要一整套非常全面的測試,當有人想要用對抗的方式提出機器無法做到、人類卻能做到的事,在這些人無法成功時我們就到達了AGI。
在DeepMind的早期研究中,許多任務都涉及了人工智慧在開放環境中的操作。
這符合Shane Legg試圖提出的對智力的定義和測量,即能夠在不同的領域和不同的任務中表現良好。
這與模型性能的能力和性能的廣度有關。
在評估智能時,存在一種框架能夠根據任務和環境的複雜性進行加權。
這種權衡有點像奧卡姆剃刀原理,傾向於加權那些更簡單、更重要的任務和環境。
在柯爾莫哥洛夫複雜度(Kolmogorov complexity )中,存在一個自由參數,即參考機器(reference machine)。
參考機器的選擇可以影響智慧度量的結果,它可以改變不同任務和環境在度量中的權重和分佈。
但選擇合適的參考機器仍然是一個未解決的問題,因為沒有一個通用的參考機器,通常情況下,人們會使用圖靈機作為參考。
Shane Legg認為,解決這個問題最自然的做法是思考對人類而言智能的意義。
人類智慧在我們所處的環境中意義重大,它確實存在、並對世界產生了深遠的影響,具有強大的力量。
如果AI能夠達到人類層面的智能,這將在經濟和哲學層面產生重要的影響,例如改變經濟結構,並涉及我們對智能的哲學理解。
而從歷史角度來看,這也是一個重要的轉捩點。
因此,以人類智慧作為參考機器的選擇在多個方面都具有合理性。
另一個原因則是純粹的科爾莫哥洛夫複雜性定義其實是不可計算的。
02 我們需要新的AI架構嗎?
關於AI的情境記憶的缺陷問題,Shane Legg認為這牽涉到了模型的架構問題。
目前的LLMs架構主要依賴上下文視窗和權重,但這不足以滿足複雜的認知任務。
大腦在處理情景記憶時採用了不同的機制,可以快速學習特定訊息,這與緩慢學習深層的通用性概念不同。
然而,一個綜合的智慧系統應該能夠同時處理這兩種任務,因此我們需要對架構進行改進。
以人類智能作為參考機器觀點出自Shane Legg2008年的論文。
他在當時提出了一種用於衡量智慧的方法,即壓縮測試(compression test),它涉及填充文字樣本中的單字以衡量智慧。
這種方法與目前LLMs的訓練方式非常吻合,即基於大量資料進行序列預測。
這涉及到Marcus Hutter的AIXI理論以及Solomonoff歸納。
Solomonoff歸納是一種理論上非常優雅且樣本效率極高的預測系統,雖然它無法在實際計算中應用。
但Shane Legg表示,使用Solomonoff歸納作為基礎,就可以建立一個通用代理,並透過添加搜尋和強化訊號來使其成為通用人工智慧,這就是AIXI的原理。
如果我們擁有一個出色的序列預測器,或者是Solomonoff歸納的某種近似,那麼,從這一點出發構建一個非常強大、通用的AGI系統只是另一個步驟。
Shane Legg說,這正是我們今天所看到的情況:
這些極其強大的基礎模型實際上是非常出色的序列預測器,它們根據所有這些數據對世界進行了壓縮。
然後我們將能夠以不同的方式擴展這些模型,並建立非常強大的代理。
03 DeepMind的“超級對齊”
「對齊」(Alignment)指的是確保AI系統或通用人工智慧(AGI)系統的目標、行為和決策與人類價值、倫理準則和目標一致的過程。
這是為了防止AI系統出現不符合人類價值或可能帶來危險的行為,並確保它們在處理倫理問題時能夠做出符合道德的決策。
DeepMind在當下流行的強化學習和自博弈,如如Constitution AI 或RLHF方面,已有數十年的深耕。
在解決具有人類智慧水準的模型安全問題上,DeepMind持續做著努力:
模型可解釋性、過程監督、紅隊、評估模型危險等級,以及與機構和政府聯手開展工作…
而Shane Legg認為,當AGI層級的系統出現時,試圖限製或遏制其發展不是一個好的選擇。
我們要做的是調整這個模型,使其與人類的倫理價值高度一致,從一開始就具備高度道德倫理性。
這需要係統能夠進行深入的世界理解,良好的道德倫理理解,以及穩健且可靠的推理能力。
可靠的AGI不應該像目前的基礎模型那樣僅僅輸出“第一反應”,而應該具備“第二系統”的能力,進行深入的推理和道德分析。
Shane Legg提到,要確保AGI系統遵循人類倫理準則首先應該對系統進行廣泛的倫理培訓,確保其對人類倫理有充分的理解。
在這個過程中,社會學家和倫理學家等各方需要共同決定係統應該遵循的倫理原則和價值觀。
並且,系統需要被工程化,以確保其在每次決策時都會使用深刻的世界理解和倫理理解進行倫理分析。
此外,我們也需要不斷對系統的決策過程和推理過程進行審核,以確保其正確地進行了倫理推理。
但要確保系統遵循倫理原則,審核同樣重要。
我們需要向系統明確指定應該遵循的倫理原則,並透過對其進行審核來確保系統始終如一地遵循這些原則,至少與一組人類專家一樣好。
此外,也要警惕強化學習可能帶來的潛在危險,因為過度強化可能導致系統學習欺騙性行為。
對是否需要建立一種框架,以在系統達到一定能力水準時制定具體的安全標準這個問題上,Shane Legg認為這是意義的,但也相當困難。
因為制定一個具體標準,本身就是一個具有挑戰性的任務。
04 安全還是性能?
在DeepMind創立之前,Shane Legg就一直擔心AGI的安全性。
但在早期,聘請專業人員從事通用人工智慧安全工作是一項艱難的挑戰。
即使曾在這個領域發布過AGI安全性研究論文,他們也不願意全職從事這項工作,因為他們擔心這可能會對他們的職業生涯產生影響。
而DeepMind一直在這個領域積極進行研究,並多次強調了AGI安全性的重要性。
關於DeepMind對AI進展的影響,Shane Legg表示,DeepMind是第一家專注於AGI的公司,一直擁有AGI安全性團隊,同時多年來發表了許多關於AGI安全性的論文。
這些工作提高了AGI安全性領域的可信度,但在不久之前,AGI還是一個較為邊緣的術語。
Shane Legg承認,DeepMind在某種程度上加速了AI的能力發展,但也存在一些問題,例如模型幻覺。
但另一方面,DeepMind的AlphaGo計畫確實改變了某些人的看法。
然而,Shane Legg指出AI領域的發展不僅取決於DeepMind,其他重要的公司和機構的參與也至關重要。
Shane Legg認為儘管DeepMind可能加速了某些方面的進展,但許多想法和創新通常在學術界和工業界之間自然傳播,因此很難確定DeepMind的影響程度。
但在關於AGI安全性的問題上,Shane Legg並沒有選擇最樂觀的研究方向,而是提到了一種名為「Deliberative Dialogue」的決策方法。
它旨在透過辯論來評估代理可以採取的行動或某些問題的正確答案。
這種方法可以將對齊擴展到更強大的系統。
05 AGI來臨的時間點
2011年,Shane Legg在自己的一篇部落格文章中對通用人工智慧(AGI)到來的時間點進行了預測:
「我之前對AGI何時到來做一個對數正態分佈的預測,其中2028年是均值,2025年是眾數。我現在依然保持我的觀點,但前提是不發生核戰這類瘋狂的事件。”
Shane Legg解釋了他的預測基於兩個重要觀點:
首先,機器的運算能力將在未來幾十年內呈指數級增長,同時全球數據量也將呈指數級增長。
當計算和數據量都呈指數級增長時,高度可擴展演算法的價值會不斷提高,因為這些演算法可以更有效地利用計算和數據。
其次,透過可擴展演算法的發現、模型的訓練,未來模型的資料規模將遠遠超過人類一生中所經歷的資料量。
Shane Legg認為這將是解鎖AGI的第一步。因此,他認為在2028年之前有50%的機會實現AGI。但那時人們也可能遇到現在預期之外的問題。
但在Shane Legg看來,目前我們遇到的所有問題都有望在未來幾年內解決。
我們現有的模型將變得更完善,更真實,更及時。
多模態將會是模型的未來,這將使它們變得更加有用。
但就像硬幣的兩面,模型也可能會出現被濫用的情況。
06 多模態未來
最後,Shane Legg提到了下一個AI領域的里程碑將會是多模態模型。
多模態技術將會把語言模型所具備的理解能力擴展到更廣泛的領域。
當未來的人們回想起我們現在擁有的模型,他們可能會想:“天哪,以前的模型只能算是個聊天對話框,它們只能處理文字。”
而多模態模型可以理解影像、視訊、聲音,當我們和它們進行交流時,多模態模型將更了解發生了什麼。
這種感覺就像是系統真的嵌入了真實的世界。
當模型開始處理大量影片和其他內容時,它們將對世界有一個更根本的理解,以及其他各種隱含的知識。