研究人員發出警告AI系統已學會如何欺騙人類
研究人員對人工智慧系統從事欺騙行為的可能性提出了警告,這可能會產生嚴重的社會影響。他們強調,需要採取強有力的監管措施來有效管理這些風險。許多人工智慧(AI)系統,即使是那些被設計成樂於助人、實事求是的系統,也已經學會如何欺騙人類。在最近發表於《模式》(Patterns)雜誌的一篇評論文章中,研究人員強調了人工智慧欺騙行為的危險性,並敦促各國政府盡快制定強有力的法規來降低這些風險。
第一作者、麻省理工學院人工智慧存在安全博士後彼得-S-帕克(Peter S. Park)說:「人工智慧開發人員對造成欺騙等不良人工智慧行為的原因並不十分了解。但一般來說,我們認為人工智慧欺騙行為的產生是因為基於欺騙的策略被證明是在特定人工智慧訓練任務中表現出色的最佳方式。
Park 及其同事分析了相關文獻,重點研究了人工智慧系統傳播虛假資訊的方式——透過學習欺騙,系統地學會操縱他人。
研究人員在分析中發現的最顯著的人工智慧欺騙例子是Meta 公司的CICERO,這是一個專門用來玩”外交”遊戲的人工智慧系統。儘管Meta 公司聲稱它訓練CICERO”基本上是誠實和樂於助人的”,並且在玩遊戲時”從不故意背叛”人類盟友,但該公司隨其科學論文一起發表的數據顯示,CICERO 玩得並不公平。
Meta 的CICERO 在外交遊戲中的欺騙範例。資料來源:Patterns/Park Goldstein et al.
Park 說:”我們發現,Meta 的人工智慧學會了欺騙。雖然Meta 成功地訓練其人工智慧在外交遊戲中獲勝–CICERO 在參加過不止一次遊戲的人類玩家中名列前10%,但Meta 卻未能訓練其人工智慧以誠實的方式獲勝”。
其他人工智慧系統也展示了在與人類職業玩家進行的德州撲克遊戲中虛張聲勢的能力,在戰略遊戲《星海爭霸II》中偽造攻擊以擊敗對手的能力,以及在經濟談判中歪曲自己的偏好以佔上風的能力。
Park 補充說,雖然人工智慧系統在遊戲中作弊看似無害,但這可能會導致”人工智慧欺騙能力的突破”,並在未來演變成更高級的人工智慧欺騙形式。
研究人員發現,一些人工智慧系統甚至學會了欺騙旨在評估其安全性的測試。在一項研究中,數位模擬器中的人工智慧生物”裝死”,以欺騙為消除快速複製的人工智慧系統而設計的測試。透過有計劃地欺騙人類開發人員和監管機構對其進行的安全測試,欺騙性人工智慧會讓我們人類陷入虛假的安全感。
GPT-4 完成驗證碼任務。圖片來源:Patterns/Park Goldstein et al.
帕克警告說,欺騙性人工智慧的主要近期風險包括使敵對行為者更容易實施欺詐和篡改選舉。他說,最終,如果這些系統能夠完善這種令人不安的技能組合,人類可能會失去對它們的控制。
“作為一個社會,我們需要盡可能多的時間來為未來人工智慧產品和開源模型更先進的欺騙能力做好準備,”Park 說。 “隨著人工智慧系統的欺騙能力越來越先進,它們對社會帶來的危險也將越來越嚴重。”
雖然Park 和他的同事認為社會還沒有正確的措施來解決人工智慧欺騙問題,但他們感到鼓舞的是,政策制定者已經透過歐盟人工智慧法案和拜登總統的人工智慧行政命令等措施開始認真對待這個問題。但Park 說,鑑於人工智慧開發人員尚不具備控制這些系統的技術,旨在減少人工智慧欺騙行為的政策能否嚴格執行還有待觀察。
“如果禁止人工智慧欺騙在當前政治上不可行,我們建議將欺騙性人工智慧系統歸類為高風險,”Park 說。
編譯來源:ScitechDaily