OpenAI增強安全團隊授予其董事會否決危險AI的權力
生產中的模型由「安全系統」團隊管理。開發中的前沿模型有「準備」團隊,該團隊會在模型發布之前識別和量化風險。然後是「超級對齊」團隊,他們正在研究「超級智慧」模型的理論指南。當地時間12月18日,OpenAI在官網中宣布,正在擴展內部安全流程,以抵禦有害人工智慧的威脅。一個新的「安全顧問小組」將位於技術團隊之上,向領導層提出建議,並且董事會被授予否決權。
這項更新引起注意很大程度上是因為,此前OpenAI首席執行官山姆·奧特曼(Sam Altman)被董事會罷黜的一個緣由似乎與大模型安全問題相關。而在高層人事混亂後,OpenAI董事會的兩名「減速主義」成員伊爾亞·蘇茨克維(Ilya Sutskever)和海倫·托納(Helen Toner)就失去了董事會席位。
在文章中,OpenAI討論了其最新的“準備框架”,即OpenAI追蹤、評估、預測和防範日益強大的模型帶來災難性風險的流程。如何定義災難性風險?OpenAI表示,“我們所說的災難性風險是指,任何可能導致數千億美元經濟損失或導致許多人嚴重傷害或死亡的風險——包括但不限於生存風險。”
三組安全團隊涵蓋不同的時間框架和風險。
根據OpenAI官網訊息,生產中的模型由「安全系統」團隊管理。開發中的前沿模型有「準備」團隊,該團隊會在模型發布之前識別和量化風險。然後是「超級對齊」(superalignment)團隊,他們正在研究「超級智慧」(superintelligent)模型的理論指南。
OpenAI的團隊將根據四個風險類別對每個模型進行評級:網路安全、「說服」(例如虛假資訊)、模型自主性(即自行行動)和CBRN(化學、生物、放射性和核威脅,例如創造新病原體的能力)。
OpenAI假定了各種緩解措施:例如,模型對於描述製作凝固汽油或管式炸彈的過程保持合理的保留態度。在考慮已知的緩解措施後,如果一個模型仍然被評估為具有「高」風險,它將無法部署,如果一個模型有任何「關鍵」風險,將不會進一步開發。
而製作模型的人不一定是評估模型和提出建議的最佳人選。正是由於這個原因,OpenAI正在組建一個“跨職能安全諮詢小組”,該小組將位於技術層面,審查研究人員的報告並從更高的角度提出建議,希望為其發現一些“未知的未知”。
這個過程要求這些建議同時發送給董事會和領導層,領導層將決定是繼續還是停止運行,但董事會將能夠撤銷這些決定。這有望避免在董事會不知情的情況下讓高風險產品或流程獲得批准。
不過,依然令外界擔心的是,如果專家小組提出建議,執行長根據該資訊做出了決策,那麼OpenAI目前這個董事會真的會感到有權反駁並踩下煞車嗎?如果他們這樣做了,外界的公眾會聽到相關的聲音嗎?目前除了OpenAI將徵求獨立第三方審計的承諾之外,其透明度問題實際上並沒有真正解決。
OpenAI「準備框架」五個關鍵要素:
1.評估和評分
我們將運行評估並不斷更新我們模型的「記分卡」。我們將評估所有前沿模型,包括在訓練運行期間增加兩倍的有效計算量。我們將把模型推向極限。這些發現將有助於我們評估前沿模型的風險,並衡量任何建議的緩解措施的有效性。我們的目標是探測不安全的特定邊緣,以有效地減輕暴露的風險。為了追蹤我們模型的安全水平,我們將製作風險「記分卡」和詳細報告。
「記分卡」將評估所有前沿模型。
2.設定風險閾值
我們將定義觸發安全措施的風險閾值。我們根據以下初始追蹤類別定義了風險等級閾值:網路安全、CBRN(化學、生物、放射性、核威脅)、說服和模型自主。我們指定了四個安全風險級別,只有緩解後得分為「中」或以下的模型才能部署;只有緩解後得分為「高」或以下的模型才能進一步開發。我們還將針對具有高風險或嚴重風險(緩解前)的模型實施額外的安全措施。
風險等級。
3.設定新的監督技術工作和安全決策營運結構
我們將建立一個專門的團隊來監督技術工作和安全決策的營運結構。準備團隊將推動技術工作來檢查前沿模型能力的極限,進行評估並綜合報告。這項技術工作對於OpenAI安全模型開發和部署的決策至關重要。我們正在創建一個跨職能的安全諮詢小組來審查所有報告並將其同時發送給領導層和董事會。雖然領導階層是決策者,但董事會擁有推翻決定的權利。
新的監督技術工作和安全決策營運結構。
4.增加安全性和外部問責制
我們將制定協議以提高安全性和外部責任。「準備團隊」將定期進行安全演習,以針對我們的業務和自身文化進行壓力測試。一些安全問題可能會迅速出現,因此我們有能力標記緊急問題以進行快速回應。我們認為,這項工作從OpenAI外部人員那裡獲得回饋並希望由合格的獨立第三方進行審核是很有幫助的。我們將繼續讓其他人組成紅隊並評估我們的模型,並且我們計劃與外部分享更新。
5.減少其他已知和未知的安全風險
我們將協助減少其他已知和未知的安全風險。我們將與外部各方以及安全系統等內部團隊密切合作,以追蹤現實世界中的濫用。我們還將與「Superalignment」(超級對齊)合作追蹤緊急的錯位風險。我們也開創了衡量風險如何隨著模型規模擴展而演變的新研究,以幫助提前預測風險,這類似於我們早期在規模法則方面的成功。最後,我們將運行一個連續的過程來嘗試解決任何新出現的「未知的未知」。