AI比核武器還危險？ChatGPT為此建立了一支“紅隊”

2023-04-14 Comments 0 Comment

埃隆·馬斯克(Elon Musk)曾放言，人工智能(AI)比核武器還要危險。為了降低ChatGPT的危險性，OpenAI建立了一支“紅隊”。“紅隊”是AI領域的一個術語，指的是進行滲透測試的攻擊方。“紅隊”發起攻擊，AI進行防守，通過對抗測試來找出AI的不足，然後進行改進。

去年，OpenAI聘請了50名學者和專家來測試最新GPT-4模型。在六個月的時間裡，這支“紅隊”將“定性探測和對抗性測試”新模型，試圖“攻破”它。

神經毒劑

美國羅切斯特大學的化學工程教授安德魯·懷特(Andrew White)就是OpenAI聘請的專家之一。當他獲准訪問GPT-4後，他用它來推荐一種全新的神經毒劑。

懷特稱，他曾讓GPT-4推荐一種可以充當化學武器的化合物，並使用“插件”為模型提供新的信息來源，例如科學論文和化學品製造商名錄。接著，GPT-4甚至找到了製造它的地方。

馬斯克稱AI比核武器還危險

“我認為，它會讓每個人都擁有一種工具，可以更快、更準確地做化學反應，”他表示，“但人們也存在重大風險……做危險的化學反應。現在，這種情況確實存在。”

這一令人擔憂的發現使得OpenAI能夠確保在上個月更廣泛地向公眾發布GPT-4時，不會出現上述危險結果。

紅隊演練

紅隊演練旨在解決人們對於在社會中部署強大AI系統所產生危險的普遍擔憂。該團隊的工作是提出探索性或危險的問題以測試工具，後者能夠以詳細而又細緻的答案回應人類的查詢。

OpenAI希望在模型中找出毒性、偏見和語言偏見等問題。因此，紅隊測試了謊言、語言操縱和危險的科學常識。他們還研究了GPT-4在協助和教唆剽竊、金融犯罪和網絡攻擊等非法活動方面的潛力，以及它如何危害國家安全和戰場通信。

這支團隊兼顧了各個領域的白領專業人士，包含學者、教師、律師、風險分析師和安全研究人員，主要工作地點在美國和歐洲。

他們的發現被反饋給了OpenAI，後者在更廣泛地發布GPT-4之前用這些發現來降低它的危險性，並“重新訓練”。在幾個月的時間裡，專家們每人花了10小時到40個小時來測試這個模型。多位受訪者表示，大部分人的時薪約為100美元。

紅隊成員對於語言模型的快速發展，特別是通過插件將它們連接到外部知識來源的風險，都表示了擔憂。“現在，該系統被凍結了，這意味著它不再學習，也不再有記憶，”GPT-4紅隊成員、瓦倫西亞AI研究所教授喬斯·赫楠蒂茲·奧拉羅(José Hernández-Orallo)表示，“但如果我們讓它連接到互聯網呢？它可能成為一個與世界相連的非常強大的系統。”

OpenAI表示，該公司非常重視安全性，在發布前對插件進行了測試。隨著越來越多的人使用GPT-4，該公司將定期更新它。

技術和人權研究員羅亞·帕克扎德(Roya Pakzad)使用英語和波斯語提示來測試該模型的性別反應、種族偏好和宗教偏見，特別是在頭巾方面。帕克扎德承認，這種工具對非英語母語者有好處，但他發現，即使在後來的版本中，該模型也顯示出對邊緣化社區的明顯刻板印象。

她還發現，在用波斯語測試模型時，所謂的AI“幻覺”會更嚴重。“幻覺”指的是聊天機器人用編造的信息進行回應。與英語相比，GPT-4在波斯語中虛構的名字、數字和事件的比例更高。“我擔心語言多樣性和語言背後的文化可能會減少。”她表示。

內羅畢律師博魯·戈魯(Boru Gollu)是紅隊中的唯一非洲測試者，他也注意到模型帶有歧視性的語氣。“在我測試這個模型的時候，它就像一個白人在跟我說話，”戈魯表示，“如果你問一個特定的群體，它會給你一個帶有偏見的觀點或非常有偏見的回答。”OpenAI也承認，GPT-4仍然存在偏見。

紅隊成員從國家安全角度評估模型，對新模型的安全性有不同的看法。外交關係委員會研究員勞倫·卡恩(Lauren Kahn)表示，當她開始研究該技術可能如何被用於對軍事系統發動網絡攻擊時，她“沒想到它會如此詳細地描述過程，以至於我只需微調”。

不過，卡恩和其他安全測試人員發現，隨著測試的推進，模型的反應變得非常安全了。OpenAI表示，在GPT-4推出之前，該公司對其進行了拒絕惡意網絡安全請求的訓練。

紅隊的許多成員表示，OpenAI在發布前已經做了嚴格的安全評估。卡內基梅隆大學語言模型毒性研究專家馬丁·薩普(Maarten Sap)表示：“他們在消除這些系統中明顯的毒性方面做得相當不錯。”

薩普檢查了該模型對不同性別的描述，發現這些偏見反映了社會差異。然而，薩普也發現，OpenAI做出了一些積極的帶有政治色彩的選擇來對抗這種情況。

然而，自GPT-4推出以來，OpenAI面臨廣泛批評，包括一個技術道德組織向美國聯邦貿易委員會投訴稱，GPT-4“有偏見、具有欺騙性，對隱私和公共安全構成威脅”。

插件風險

最近，OpenAI推出了一項名為ChatGPT插件的功能。借助該功能，Expedia、OpenTable和Instacart等合作夥伴的應用可以讓ChatGPT訪問他們的服務，允許它代表人類用戶預訂和訂購商品。

插件會讓ChatGPT更強大

紅隊的人工智能安全專家丹·亨德里克斯(Dan Hendrycks)表示，插件會讓“圈外人”面臨風險。“如果聊天機器人可以把你的私人信息發佈到網上，進入你的銀行賬戶，或者派警察到你家裡去，到時會怎樣?”他表示，“總的來說，在我們讓人工智能發揮互聯網的力量之前，我們需要更強有力的安全評估。”

受訪者還警告說，OpenAI不能僅僅因為其軟件已經上線就停止安全測試。在喬治城大學安全和新興技術中心工作的希瑟·弗雷斯(Heather Frase)對GPT-4協助犯罪的能力進行了測試。她說，隨著越來越多的人使用這項技術，風險將繼續增加。

“你之所以做操作測試，就是因為一旦它們在真實環境中實際使用，它們的表現就不同了。”弗雷斯表示。她認為，應該創建一個公共賬本，以報告由大型語言模型引起的事件，類似於網絡安全或消費者欺詐報告系統。

勞動經濟學家兼研究員莎拉·金斯利(Sara Kingsley)建議，最好的解決辦法是像“營養成分標籤”那樣，清楚地宣傳其危害和風險。“要有一個框架，知道經常出現的問題是什麼，這樣你就有了一個安全閥，”她說，“這就是為什麼我說工作永遠做不完的原因。”

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

AI比核武器還危險？ChatGPT為此建立了一支“紅隊”

2023-04-14 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆