姚期智等三十餘位專家達成共識:AI不應違反紅線
為了因應AI 發展帶來的挑戰,國內外研究者展開合作以避免其可能帶來的災難的發生。現階段,人工智慧的發展速度已經超越了人們最初的預想,用AI 工具寫文章、編程式碼、生成圖片、甚至是生成一段電影等級的影片…… 這些在以前看似非常艱難的任務,現在只需用戶輸入一句提示就可以了。
我們在感嘆AI 帶來驚艷效果的同時,也應該警惕其帶來的潛在威脅。在此之前,許多知名學者都以帶頭簽署公開信的方式應對AI 帶來的挑戰。
現在,AI 領域又一封重磅公開信出現了。上週在頤和園舉行的“北京AI國際安全對話”,為中國和國際AI安全合作首次建立了一個獨特平台。這次會議由智源研究院發起,圖靈獎得主Yoshua Bengio和智源學術顧問委員會主任張宏江擔任共同主席,Geoffrey Hinton、Stuart Russell 、姚期智等三十餘位中外技術專家、企業負責人開展了一次關於AI Safety 的閉門討論。這次會議達成了一項Bengio、Hinton 與國內專家共同簽署的《北京AI 安全國際共識》。
目前,確認會署名的專家包括(國外部分可能會略有增加;國內專家以個人形式署名,並不代表他們所在的機構):
Yoshua Bengio
Geoffrey Hinton
Stuart Russell
Robert Trager
Toby Ord
Dawn Song
Gillian Hadfield
Jade Leung
Max Tegmark
Lam Kwok Yan
Davidad Dalrymple
Dylan Hadfield-Menell
姚期智
傅瑩
張宏江
張亞勤
薛瀾
黃鐵軍
王仲遠
楊耀東
曾毅
李航
張鵬
田溯寧
田天
以下為達成的共識內容:
一、人工智慧風險紅線
人工智慧系統不安全的開發、部署或使用,在我們的有生之年就可能為人類帶來災難性甚至生存風險。隨著數位智能接近甚至超越人類智能,由誤用和失控所帶來的風險將大幅增加。
在過去冷戰最激烈的時候,國際學術界與政府間的合作幫助避免了熱核災難。面對前所未有的技術,人類需要再次合作以避免其可能帶來的災難的發生。在這份共識聲明中,我們提出了幾條人工智慧發展作為國際協作機制的具體紅線,包括但不限於下列問題。在未來的國際對話中, 面對快速發展的人工智慧技術及其廣泛的社會影響,我們將繼續完善這些議題的探討。
自主複製或改進
任何人工智慧系統都不應能夠在人類沒有明確批准和協助的情況下複製或改進自身。這包括製作自身的精確副本以及創造具有相似或更高能力的新人工智慧系統。
權力尋求
任何人工智慧系統都不能採取不當地增加其權力和影響力的行動。
協助不良行為者
所有人工智慧系統都不應提升其使用者的能力使之能夠達到設計大規模殺傷性武器、違反生物或化學武器公約、或執行導致嚴重財務損失或同等傷害的網路攻擊的領域專家的水平。
欺騙
任何人工智慧系統都不能有持續引致其設計者或監管者誤解其篡奪任何前述紅線的可能性或能力。
二、路線
確保這些紅線不被僭越是可能做到的,但需要我們的共同努力:既要建立並改善治理機制,也要研發更多安全技術。
治理
我們需要全面的治理機制來確保開發或部署的系統不會違反紅線。我們應該立即實施針對超過特定計算或能力閾值的人工智慧模型和訓練行為的國家層級的註冊要求。註冊應確保政府能夠了解其境內最先進的人工智慧,並具備遏制危險模式分發和運作的手段。
國家監管機構應協助制定和採納與全球對齊的要求以避免僭越這些紅線。模型進入全球市場的權限應取決於國內法規是否基於國際審計達到國際標準,並有效防止了違反紅線的系統的開發和部署。
我們應採取措施防止最危險技術的擴散,同時確保廣泛收穫人工智慧技術的價值。為此,我們應建立多邊機構和協議,安全且包容地治理通用人工智慧(AGI)發展,並設立執行機制,以確保紅線不被僭越,共同利益得到廣泛分享。
測量與評估
在這些紅線被篡奪的實質風險出現之前,我們應發展出全面的方法和技術來使這些紅線具體化、防範工作可操作化。為了確保紅線的檢測能夠跟上快速發展的人工智慧,我們應該發展人類監督下的紅隊測試和自動化模型評估。
開發者有責任透過嚴格的評估、數學證明或定量保證來證明符合安全設計的人工智慧系統未孿越紅線。
技術合作
國際學術界必須共同合作,以應對高階人工智慧系統帶來的技術和社會挑戰。我們鼓勵建立更強大的全球技術網絡,透過訪問學者計畫和組織深入的人工智慧安全會議和研討會,加速人工智慧安全領域的研發和合作。支持這一領域的成長將需要更多資金:我們呼籲人工智慧開發者和政府資助者至少將他們人工智慧研發預算的三分之一投入安全領域。
三、總結
避免人工智慧導致的災難性全球後果需要我們採取果斷的行動。協同合作的技術研究與審慎的國際監管機制的結合可以緩解人工智慧帶來的大部分風險,並實現其許多潛在價值。我們必須繼續堅持並加強國際學術界和政府在安全方面的合作。