價值未對齊的人工智慧
1956 年夏天,一小群數學家和計算機科學家聚集在達特茅斯學院,開始了設計智慧機器的宏偉計劃。 他們探索了認知能力的許多方面,包括推理、創造力、語言、決策和學習。 他們的問題和立場將決定人工能(AI)這一新興領域的發展方向。 而在他們看來,最終的目標是製造出在智力上可與人類媲美的機器。
幾十年過去了,隨著人工智慧成為一個穩定發展的領域,人們降低了對它的期望。 人工智慧在邏輯、推理和遊戲方面取得了巨大的成功,但在其他一些領域卻頑固地拒絕進步。 到了 20 世紀 80 年代,研究人員開始理解這種成功和失敗的模式。 出乎意料的是,我們視為人類智力巔峰的任務(如微積分或國際象棋),計算機執行起來其實比那些我們認為幾乎不費吹灰之力即可完成的任務(如認出一隻貓、理解簡單的句子或撿雞蛋 )要容易得多。 所以,雖然有些領域里人工智慧遠遠超過了人類的能力,但也有一些領域不如兩歲孩童。 72 這種未能取得全面進展的情況導致許多人工智慧研究者放棄了實現完全通用智慧的早期目標,並重新定義他們的領域,為解決具體的問題研發專門的技術。 他們放棄了一個不成熟領域里新生熱情所追求的更宏大目標。
但情況正在逆轉。 從人工智慧誕生之初,研究人員就試圖構建不需要清晰程式設計就能學習新事物的系統。 最早的機器學習手段之一是構建類似於人類大腦結構的人工神經網路。 在過去的十年裡,這種手段終於有了起色。 設計和訓練上的技術改進,加上更豐富的數據集和更強大的計算能力,使我們能夠訓練出比以往更大以及學習能力更深入的網路。
這種深度學習使網路有能力學習微妙的概念和區別。 它們現在不僅能識別一隻貓,而且在區分不同品種的貓方面,表現也超過了人類。 它們比我們更能識別人臉,還能分辨同卵雙胞胎。 而且我們已經可以將這些能力用於感知和分類以外的領域。 深度學習系統可以在不同語言之間進行翻譯,其熟練程度接近人工翻譯。 它們可以生成人類和動物的逼真圖像。 它們只要聽一個人講幾分鐘話,就可以用這個人的聲音說話。 而且它們可以學會精細而連續的操控方式,如學會駕駛汽車或使用機械臂拼樂高零件。
但也許最能預示未來的重要標誌是它們學會玩遊戲的能力。 自達特茅斯會議以來,遊戲一直是人工智慧的核心部分。 持續而穩定的進步使人工智慧的國際象棋水準從 1957 年參與業餘比賽一直發展到 1997 年超越了人類,而且是大幅領先。 77 要達到這個水準,需要大量的國際象棋策略方面的專家知識。
2017年,深度學習被應用於國際象棋,並取得了令人矚目的成果。 人工智慧公司 DeepMind 的一個研究團隊創造了 AlphaZero:一個基於神經網路的系統,從頭開始學習下棋。 它從新手到象棋大師只用了四個小時。 在不到一個職業棋手下兩盤棋的時間里,它發現了人類花費幾個世紀才發掘出來的策略知識,發揮出了超越頂尖棋手和傳統程序的水準。 而令棋手們欣喜的是,它贏得比賽的方式不是計算機象棋所代表的枯燥刻板風格,而是讓人想起國際象棋浪漫時代的創造性和大膽技法。
但最重要的是,AlphaZero 能做的不僅僅是下國際象棋。 它用同樣的演算法從零開始也學會了下圍棋,並在八小時內遠遠超過了任何人類的能力。 世界上最優秀的圍棋選手一直認為自己的棋藝已經接近完美,所以很震驚地發現自己被如此徹底地擊敗。 正如衛冕世界冠軍柯潔所說:「人類數千年的實戰演練進化,計算機卻告訴我們人類全都是錯的。 我覺得,甚至沒有一個人沾到圍棋真理的邊。 ”
正是這種通用性成了前沿人工智慧最令人印象深刻的特點,它重新點燃了讓人工智慧趕上和超越人類智慧各個方面的雄心壯志。 這個目標有時被稱為通用人工智慧(AGI),以區別於曾經佔據主導地位的狹隘技術。 雖然國際象棋和圍棋這些歷史彌新的遊戲最能展現深度學習所能達到的輝煌成就,但它的廣度是通過 20 世紀 70 年代的雅達利電子遊戲來揭示的。 2015年,研究人員設計了一種演算法,可以學習玩幾十種差異極大的雅達利遊戲,其水準遠遠超過人類的能力。 與從棋盤的符號意義開始學習國際象棋或圍棋的系統不同,雅達利遊戲系統直接從分數和螢幕上的原始圖元學習和掌握這些遊戲。 它們證明瞭通用人工智慧體的概念是可以實現的:通過原始的視覺輸入來學習控制世界,在不同的環境中實現其目標。
這種通過深度學習取得的迅猛進展,讓人們對可能很快實現的目標極為樂觀。 企業家們爭先恐後地將每一項新的突破付諸實踐:從同聲傳譯、私人助理和無人駕駛汽車,到改進監控設備和致命性自主武器等更令人關注的領域。 這是一個滿懷希望的時代,同時也是一個充滿道德挑戰的時代。 人們對人工智慧固化社會歧視、導致大規模失業、支援壓迫性的監控以及違反戰爭準則等問題表示嚴重關切。 事實上,這些受到關注的每一個領域都可以自成一章或者為此寫一本書。 但本書關注的是人類面臨的生存性風險。 人工智慧的發展會不會在這個最廣泛的範圍內構成風險?
最有可能的生存性風險將來自人工智慧研究人員的宏偉抱負 —成功創造出超越人類自身的通用智慧體。 但這種情況發生的可能性有多大,以及什麼時候會發生呢? 2016年,有人對300多名機器學習領域的頂級研究人員進行了詳細調查。 當被問及人工智慧系統何時能「比人工更好、成本更低地完成每一項任務」時,他們的平均估計是到2061 年有50%的可能,而到不久後的2025年出現這種情況的可能性為10%。
圖 5.1:人工智慧發展和熱門程度的量表。 人臉顯示了最近在生成「虛擬」人物真實形象方面所取得的迅猛進展。 圖表則顯示了國際象棋 AI 在超越人類象棋大師的過程中取得的長期進步(以 ELO 等級分衡量),以及最近該領域學術活動的增加(以 arXiv 上發佈的論文數和會議的出席率衡量)
這份調查結果應該謹慎地解讀。 它評估的並不是通用人工智慧何時會被創造出來,甚至不是專家們認為有可能發生什麼事情,而且得的預測眾說紛紜。 然而,這次調查向我們表明,專家群體基本上認為通用人工智慧並不是難以實現的夢想,而是有可能在十年內出現的,在一個世紀之內出現的可能性更大。 因此,讓我們以此為出發點評估風險,並思考如果通用人工智慧被創造出來會發生什麼。
人類目前還掌握著自己的命運,我們可以選擇我們的未來。
當然,每個人對理想未來有著不同的看法,我們中的許多人更注重個人訴求,而不是實現任何這樣的理想。 但如果有足夠多的人願意,我們可以選擇任何一種豐富多彩的未來。 而對於黑猩猩、山鳥或者地球上的任何其他物種來說,情況就不一樣了。 正如我們在第一章中看到的那樣,人類在世界上的獨特地位是我們獨一無二的心智慧力所產生的直接結果。 無與倫比的智慧帶來了無與倫比的力量,從而讓我們得以掌控自己的命運。
如果研究人員在本世紀某個時候創造了一種幾乎在每一個領域都超越人類能力的人工智慧,會發生什麼事情? 這種創造的行為會使我們把自己的地位拱手相讓,使我們不再是地球上心智慧力最強的實體。 如果沒有一個非常好的計劃來保持情況受控,我們還會把最強大物種的地位以及可以掌控自我命運的物種這一地位讓出來。
就這種情況本身而言,也許並不值得過於擔心。 因為有很多方法能讓我們有希望保持控制權。 我們可能會試著製造總是服從人類命令的系統,或者系統可以自由地做它們想做的事情,但它們的目標與我們的目標完全一致 —這樣,在構築它們的理想未來時,它們也會構築我們的未來。 不幸的是,為數不多的正在研究這類計劃的研究人員發現,這些計劃比預期的要困難得多。 事實上,提出擔憂的主要就是這些研究人員。
為了了解他們為什麼擔憂,我們需要探討得再深入一些,審視我們目前的人工智慧技術,以及為什麼這些技術很難規範或控制。 有一項或可讓我們最終創建通用人工智慧的領先範式把深度學習與早期稱為強化學習的理念結合了起來。 人工智慧體會因在各種情況下表現出的行為而獲得獎勵(或懲罰)。 例如,一個玩雅達利遊戲的人工智慧每次在遊戲中獲得分數時,就會得到獎勵,而一個搭建樂高的人工智慧體可能在拼好零件時得到獎勵。 有了足夠的智慧和經驗,人工智慧體就會變得非常善於將環境引導到獲得高額獎勵的狀態。
明確哪些行為和狀態會讓人工智慧體得到獎勵的規定被稱為人工智慧體的獎勵函數。 這可以由設計者規定(如上述情況)或由人工智慧體習得。 在後一種情況下通常允許人工智慧體觀察專業人士對任務的演示,推斷出最能解釋專業人士行為的獎勵系統。 例如,人工智慧體可以通過觀察專業人士操控無人機來學習,然後構建一個獎勵函數,懲罰飛得離障礙物太近的行為,以及獎勵到達目的地的行為。 不幸的是,這兩種方法都不能輕易地上升到在人工智慧體的獎勵函數中寫入人類價值觀。 我們的價值觀太複雜、太微妙了,無法靠手指輸入來指定。 而且我們還不能通過觀察人類的行為推斷出人類複雜的價值觀的全部。 即使我們能夠做到,人類也是由許多個體組成的,他們有不同的、不斷變化的以及不確定的價值觀。 每一種複雜情況都會帶來深刻的未解難題,即如何將觀察到的東西結合成人類價值觀的某種總體表徵。
因此,短期內任何使人工智慧體與人類價值觀相一致的嘗試都只會產生一個有缺陷的版本。 其獎勵函數中將缺失我們所關心的重要部分。 在某些情況下,這種錯位大多是無害的。 但人工智慧系統越是智慧,越能改變世界,情況就越難辦。 哲學和小說經常要求我們思考,當我們為了某些關心的事情而去優化社會,卻忽視或誤解了一個關鍵的價值,會發生什麼。 當我們對結果進行反思時,就會發現這種失序的烏托邦嘗試可能大錯特錯了:我們會像《美麗新世界》里那樣淺薄,或者像傑克·威廉森的《無所事事》裡那樣失去控制權。 如果我們不能對齊人工智慧體,它們就會努力創造這樣的世界並讓我們受困其中。
甚至這也屬於最好的情況。 它假設系統的構建者正在努力使人工智慧體與人類的價值觀相一致。 但我們應該認為,一些開發者會更專注於通過構建系統來實現其他目標,比如贏得戰爭或實現利潤最大化,而且可能不太關注道德約束。 這些系統可能危險得多。
這些問題自然會讓人們認為,如果我們發現人工智慧系統將我們引向一條錯誤的道路,我們可以直接關閉它們。 但到了最後,即使是這種由來已久的退路也可能失敗,因為我們有充分的理由相信,一個足夠智慧的系統有能力抵制我們關閉它的嘗試。 這種行為不會被恐懼、怨恨或求生等情緒所驅動。 相反,它直接來自系統一心一意追求回報最大化的偏好:被關閉是一種喪失能力的形式,這將使它更難獲得高額回報,所以系統有動力去避免被關閉。 這樣一來,回報最大化的終極結果將使高智慧系統產生謀求生存這一工具性目標。
而這不會是唯一的工具性目標。 人工智慧體也會抵制使其獎勵函數更符合人類價值觀的嘗試 —因為它可以預知,這將影響它獲得當前它認為有價值的東西。 它將尋求獲得更多的資源,包括計算能力上的、物理上的或者屬於人類的,因為這些資源會讓它更好地塑造世界以獲得更高的獎勵。 而最終它將有動力從人類手中奪取對未來的控制權,因為這將有助於實現所有這些工具性目標:獲得大量資源,同時避免被關閉或者獎勵函數被改變。 由於人類干擾所有這些工具性目標在其意之中,它會有動機向我們隱瞞這些目標,直到我們再也來不及進行有意義的抵抗。
對上述情景持懷疑態度的人有時會說,這種情況所依賴的人工智慧系統要聰明得可以控制世界,但又要愚蠢得無法意識到這不是我們想要的。 但這屬於一種誤解。 因為事實上我們對人工智慧動機的簡述已經明確承認,系統會發現它的目標與我們的目標不一致 —這才是促使它走向欺騙、衝突和奪取控制權的原因。 真正的問題是,人工智慧研究者還不知道如何製造這樣一個系統:它在注意到這種錯位后,會把它的終極價值更新至與我們保持一致,而不是更新它的工具性目標來戰勝我們。
我們也許可以為上面的每一個問題都打上補丁,或者找到對齊人工智慧的新方法,一次性解決很多問題,或者轉向不會引起這些問題的通用人工智慧新範式。 我當然希望如此,也一直在密切關注這個領域的進展。 但這種進展是有限的,我們仍然面臨懸而未決的關鍵問題。 在現有的範式中,足夠聰明的人工智慧體最終會以工具性目標來欺騙和制服我們。 而且,如果它們的智慧超過人類本身,我們就不要指望人類會贏得勝利並保持對自身未來的控制了。
人工智慧系統會如何奪取控制權?
關於這一點,有一個很大的誤解(受好萊塢和媒體的影響),認為需要機器人來實現。 畢竟,人工智慧怎麼能以其他形式在物理世界中行動呢? 如果沒有機器人的操控者,系統只能產生文字、圖片和聲音。 但稍加思考就會發現,這些恰恰是需要控制的。 因為歷史上最具破壞力的人並非最強大的人。 希特勒通過話語說服其他千百萬人贏得必要的身體上的較量,實現了對世界上很大一部分地區的絕對的控制。 只要人工智慧系統能夠誘使或脅迫人們聽從它的物理命令,它就根本不需要機器人。
我們無法確切地知道一個系統如何奪取控制權。 最現實的情況可能是,系統會使用非人類的微妙行為,我們既無法預測,也無法真正理解,而且這些行為可能針對我們目前無從得知的人類文明弱點。 不過我們把自己能真正理解的一種可供說明問題的情況作為可能發生的下限,這一點是有説明的。
首先,人工智慧系統可以進入互聯網,並隱藏成千上萬的備份,分散在世界各地不安全的計算機系統中,如果原件被刪除,備份的副本隨時可被喚醒並繼續工作。 即使只到這一步,人工智慧實際上也不可能被摧毀了:想一想清除世界上所有可能有備份的硬碟驅動器會遇到的政治阻礙。
接下來,它可以接管互聯網上無數不安全的系統,形成一個大型”殭屍網络”。 這將使計算資源的規模急劇擴大,併為控制權升級提供一個平臺。 它可以從那裡獲得財富資源(入侵這些計算機上的銀行帳戶)和人力資源(對易受影響的人進行勒索或宣傳,或者直接用偷來的錢支付給他們)。 這樣一來,它就會像一個資源充足的黑社會犯罪組織一樣強大,但更難消滅。 這些步驟一點都不神秘 —駭客和普通智商的罪犯已經利用互聯網做過這些事情。
最後,人工智慧需要再次升級它的控制權。 這更多是一種推測,但有許多可實現的途徑:接管世界上大部分的計算機,使人工智慧擁有數以億計的合作副本;利用竊取的計算能力使人工智慧遠遠超過人類水準;利用人工智慧開發新的武器技術或經濟技術;操縱世界大國的領導人(通過訛詐手段,或承諾未來賦予其權力);或者讓人工智慧控制下的人類使用大規模殺傷性武器來削弱同類。
當然,目前的人工智慧系統都無法做到這些事情。 但我們正在探索的問題是,是否有可信的途徑,能讓擁有高度智慧的通用人工智慧系統奪取控制權。 答案似乎是肯定的。 歷史上已經出現過這種情況:具備一定人類智商水準的個體把個人控制權擴張為全球很大一部分區域的控制權,將其作為工具性目標來實現他們的最終目的。 我們也看到了人類如何從一個數量不到百萬的稀少物種,規模擴大至對未來擁有決定性的控制權。 所以我們應該假設,這也有可能發生在那些智力超過人類的新實體上,尤其當它們由於備份副本而擁有永久生效的能力,並且能夠將繳獲的金錢或計算機直接轉化為更多副本之時。
這樣的結果不一定會導致人類滅絕。 但還是很容易成為一場生存性災難。 人類將再也不能掌控未來,我們的未來將取決於一小部分人如何設置計算機系統的接管方式。 幸運的話,我們可能會得到一個對人類有利或者還算過得去的結果,否則我們很容易就會永遠陷入一個有著重大缺陷或反烏托邦式的未來。
我把重點放在人工智慧系統奪取未來控制權的情景上,因為我認為這是人工智慧最有可能帶來的生存性風險。 但其他威脅也是存在的,而且專家們對其中哪一種造成的生存性風險最大存在分歧。 例如,我們的未來存在著逐漸受控於人工智慧的風險,在這種情況下,越來越多的控制權被移交給人工智慧系統,越來越多的未來以非人類的價值觀作為導向。 另外,還存在故意濫用超級人工智慧系統所帶來的風險。
即使這些關於風險的論點在具體細節上是完全錯誤的,我們也應該密切關注通用人工智慧的發展,因為它可能帶來其他不可預見的風險。 如果人類不再是地球上最有智慧的主體,這種轉變很容易就成為人類在宇宙中地位的最大變化。 如果圍繞這一轉變而發生的事件決定了我們的長期未來 —無論是好是壞,我們都不應該感到驚訝。
人工智慧幫助人類改善長期未來的一個關鍵方法是提供保護,使我們免受其他生存性風險傷害。 例如,人工智慧可以讓我們找到解決重大風險的辦法,或者識別出本來會讓我們意想不到的新風險。 人工智慧還可以讓我們的長期未來比任何不依賴人工智慧的前途都要更加光明。 因此,人工智慧發展可能會帶來生存性風險的想法並不是勸我們放棄人工智慧,而是提醒我們要謹慎行事。
認為人工智慧會帶來生存性風險的想法顯然是一種推測。 事實上,這是本書中推測性最強的重大風險。 然而,一個危害極大的推測性風險,可能比一個概率極低的確信風險(如小行星撞擊的風險)更為重要。 我們需要找到辦法來驗證這些推測成真的可能性到底有多大,一個非常有用的切入點是聽聽那些在這個領域工作的人對這個風險的看法。
奧倫·埃齊奧尼(Oren Etzioni)教授等坦率直言的人工智慧研究人員將這種風險描繪成”非常次要的爭論”,認為雖然像斯蒂芬·霍金、埃隆·馬斯克和比爾·蓋茨這樣的名人可能會深感憂慮,但真正從事人工智慧研究的人並不擔心。 如果這是真的,我們就有充分的理由懷疑人工智慧的風險並不大。 但即便只是簡單瞭解一下人工智慧領域領軍人物的言論,也會發現事實並非如此。
例如,加州大學伯克利分校教授、人工智慧領域最受歡迎和最受推崇的教科書作者斯圖爾特·羅素就強烈警告過通用人工智慧帶來的生存性風險。 他甚至成立了「人類相容人工智慧中心」(Center for Human-Compatible AI),致力於解決人工智慧的對齊問題。 在應用領域,沙恩·萊格(DeepMind 的首席科學家)提出了生存危險警告,並協助推動了人工智慧對齊問題的研究。 事實上,從人工智慧發展早期到現在,還有很多其他重要人物發表過類似言論。
這裡的分歧其實比表面上看起來要小。 那些淡化風險的人的主要觀點是:(1)我們很可能還有幾十年的時間才能讓人工智慧與人類能力相匹敵或超過人類水準;(2)試圖立即制約人工智慧研究將是一個巨大的錯誤。 然而那些提出謹慎看法的人其實並沒有質疑這兩點:他們一致認為,實現通用人工智慧的時間範圍是幾十年,而不是幾年,並且他們通常建議研究人工智慧的對齊問題,而不是監管問題。 因此,實質性的分歧並不在於通用人工智慧是否可能或有證據顯示它對人類構成威脅,而是一個看似幾十年後才會出現的潛在生存威脅是否應該引起我們目前的關注。 而在我看來,答案是肯定的。
造成這種明顯分歧的根本原因之一是對”適當保守”的看法不一。 一個更早的推測性風險很好地說明瞭這一點,當利奧·西拉德和恩里科·費米第一次談論製造原子彈的可能性時說道:”費米認為保守的做法是淡化這種可能性,而我認為保守的做法是假設它會發生,並採取一切必要的預防措施。 “2015 年,在波多黎各一次關於人工智慧未來的開創性會議上,我看到了同樣的互動。 每個人都承認,通用人工智慧在實現時間方面的不確定性和意見分歧要求我們對進展使用”保守假設”—但有一半人使用這個詞是因為考慮到令人遺憾的緩慢科學進展,而另一半人則是考慮到同樣令人遺憾的風險出現之快。 我相信,目前有關是否應該認真對待通用人工智慧風險的拉鋸局面,很大程度上歸因於人們對有關人工智慧未來進展的負責任的、保守的推測意味著什麼,持有不一致的看法。
波多黎各會議是關注人工智慧生存性風險的一個分水嶺。 會議達成了實質性的協定,許多出席者簽署了一封公開信,表示要開始認真研究如何使人工智慧既強大又對人類有利。 兩年後,又有一場規模更大的會議在阿西洛馬召開,選擇這個地點是為了呼應著名的 1975 年遺傳學會議。 在當年那次會議上,生物學家們齊聚一堂,頗有先見之明地商定原則,以管理可能很快實現的基因工程。 在 2017 年的阿西洛馬,人工智慧研究者商定了一套阿西洛馬人工智慧原則,以指導該領域以負責任的方式長期發展。 其中包括專門針對生存性風險的原則:
能力警惕:由於尚未達成共識,我們應該避免對未來人工智慧的能力上限做出較為肯定的假設。
重要性:高級人工智慧可代表地球生命史上的一次重大變化,應該以與之相稱的注意力和資源來進行規劃和管理。
風險:對於人工智慧造成的風險,尤其是那些災難性和毀滅性的風險,必須付出與其可造成的影響相稱的努力,以用於規劃和緩解風險。
或許瞭解人工智慧研究者真實想法的最佳視窗是 2016 年對人工智慧重要研究人員的調查。 除了詢問通用人工智慧是否以及何時可能被開發出來,調查者還詢問了風險問題:70% 的研究人員同意斯圖爾特·羅素關於為什麼高級人工智慧可能會帶來風險的寬泛論點;48%的人認為社會應該優先考慮人工智慧的安全問題(只有 12% 的人認為不需要)。 而一半的受訪者估計通用人工智慧造成「極其糟糕(如導致人類滅絕)」的長遠影響的概率至少是5%。 我覺得最後一點特別了不起 —有多少其他領域的典型頂尖研究者會認為該領域的最終目標有 1/20 的概率對人類極其不利?
當然這並不能證明風險是真實存在的。 但它說明了很多人工智慧研究者對通用人工智慧在50年內獲得發展以及成為一場生存性災難的可能性持嚴肅態度。 雖然有很多不確定性和分歧,但它絕對不是一個次要問題。
當有更多研究人員承認人工智慧的風險時,有一個對風險持懷疑態度的值得關注的論點就變得更加有力 —而非站不住腳。 如果研究人員能夠預見構建人工智慧將是極其危險的,那麼他們到底為什麼要做這件事呢? 他們不會只是為了建造出明知會毀滅他們的東西。
如果我們都真正明智、利他且相互協作,那麼這個論點確實說得通。 但在現實世界中,人們往往一有機會就先開發技術,之後再處理後果。 其中一個原因來自我們的理念差異:哪怕只有一小部分研究人員不相信人工智慧的危險性(或者歡迎由機器控制的世界),他們都會成為邁出最後一步的人。 這就是單邊主義的一個例子。 另一個原因與動機有關:即使一些研究人員認為風險高達 10%,但如果他們認為自己會獲得大部分利益,那可能還是會願意承受風險。 從他們的自身利益來說,這可能是合理的,但對世界來說卻不堪設想。
在某些類似的情況下,政府可以為了公共利益而介入,解決這些協調和動機問題。 但在這裡,這些完全相同的協調和動機問題出現在國家之間,而且沒有簡單的機制來解決。 如果一個國家要緩慢而安全地解決它們,則可能擔心其他國家試圖奪取其工作成果。 締結條約變得異常
困難,因為核查其他國家是否遵守條約比核查生物武器更加困難。
我們能否在人工智慧的發展中生存下來,並保持我們的長期發展潛力完好無損,有可能取決於我們能否在開發出足以構成威脅的系統之前學會對齊和控制人工智慧系統。 值得慶幸的是,研究人員已經在研究各種關鍵問題,包括如何讓人工智慧更安全、更穩健、更易理解。 但研究讓人工智慧與人類價值觀對齊這一核心問題的人仍然很少。 這是一個新興的領域,我們需要在該領域取得長足的進步,才能實現自身的安全。
儘管目前以及可預見的系統不會對人類整體構成威脅,但時間是最關鍵的。 一部分原因是人工智慧的進步可能來得非常突然:通過無法預知的研究突破,或通過迅速擴大第一代智慧系統的規模(例如將其推廣到數量為目前數千倍的硬體上,或者提高它們自身的智慧)。 另一部分原因是人類事務中如此重大的變化可能需要超過幾十年的時間來充分準備。 用 DeepMind 的聯合創始人德米什·哈薩克比斯的話來說:
我們要利用人工智慧發展的停頓期,在風平浪靜的時候為今後幾十年事態嚴重起來之時做好準備。 我們現在擁有的時間是寶貴的,需要利用起來。
出品:新浪科技《科學大家》 中信新思
作者:托比·奧德(Toby Ord)
作者簡介:澳大利亞哲學家,任教於牛津大學,是牛津大學人類未來研究所高級研究員,本文節選自其著作《危崖》(The Precipice: Existential Risk and the Future of Humanity)。
出品:新浪科技《科學大家》 中信新思
作者:托比·奧德(Toby Ord)
作者簡介:澳大利亞哲學家,任教於牛津大學,是牛津大學人類未來研究所高級研究員,本文節選自其著作《危崖》(The Precipice: Existential Risk and the Future of Humanity)。