研究發現許多人工智慧模型的安全評估都有很大的局限性
一份新報告指出,儘管對人工智慧安全性和問責制的要求越來越高,但目前的測試和基準可能還不夠。生成式人工智慧模型–可以分析和輸出文字、圖像、音樂、影片等的模型–因其容易犯錯和普遍行為不可預測而受到越來越多的關注。現在,從公共部門機構到大型科技公司,都在提出新的基準來測試這些模型的安全性。
去年年底,新創公司Scale AI 成立了一個實驗室,專門評估模型與安全準則的一致性。本月,NIST和英國人工智慧安全研究所發布了旨在評估模型風險的工具。但這些模型探測測試和方法可能還不夠。
英國非營利人工智慧研究機構阿達-拉芙蕾絲研究所(ALI)進行了一項研究,採訪了來自學術實驗室、民間社會和生產廠商模型的專家,並對最近的人工智慧安全評估研究進行了審核。共同作者發現,雖然目前的評估可能有用,但它們並不詳盡,很容易被玩弄,也不一定能說明模型在真實世界場景中的表現。
“無論是智慧型手機、處方藥還是汽車,我們都希望自己使用的產品是安全可靠的;在這些領域,產品在部署之前都要經過嚴格的測試,以確保它們是安全的,”ALI高級研究員、報告的共同作者艾利奧特瓊斯(Elliot Jones)說。 “我們的研究旨在檢查當前人工智慧安全評估方法的局限性,評估目前如何使用評估,並探索將其作為政策制定者和監管者的工具。”
研究報告的共同作者首先對學術文獻進行了調查,以了解當今模型造成的危害和風險,以及現有人工智慧模型評估的現狀。然後,他們訪問了16 位專家,其中包括四位開發生成式人工智慧系統的未具名科技公司的員工。
研究發現,人工智慧產業內部對評估模型的最佳方法和分類標準存在嚴重分歧。
有些評估只測試了模型如何與實驗室中的基準保持一致,而沒有測試模型可能對真實世界的使用者產生的影響。還有一些評估採用的是為研究目的而開發的測試,而不是對生產模型進行評估,但供應商卻堅持在生產中使用這些模型。
研究中引用的專家指出,從基準結果推斷模型的表現是很困難的,甚至不清楚基準是否能顯示模型擁有特定的能力。例如,一個模型可能在州律師資格考試中表現出色,但這並不意味著它能解決更多開放性的法律難題。
專家們也指出了資料污染問題,即如果模型是在與測試資料相同的資料上訓練出來的,那麼基準結果就會高估模型的效能。專家說,在許多情況下,企業選擇基準並不是因為它們是最好的評估工具,而是為了方便且易於使用。
ALI的研究員、該研究的合著者Mahi Hardalupas表示:”基準有可能被開發人員操縱,他們可能會在用於評估模型的相同數據集上訓練模型,相當於在考試前看到試卷,或者戰略性地選擇使用哪種評估方法。
ALI 的研究也發現了”紅隊”(red-teaming)的問題。 “紅隊”是指讓個人或團體”攻擊”模型以找出漏洞和缺陷的做法。包括人工智慧新創公司OpenAI 和Anthropic 在內的許多公司都在使用”紅隊”評估模型,但”紅隊”幾乎沒有公認的標準,因此很難評估特定工作的有效性。
專家告訴研究報告的合著者,很難找到具備必要技能和專業知識的人員來組建紅色團隊,而且紅色團隊的人工性質使其成本高昂、費力不討好,這對沒有必要資源的小型組織來說是個障礙。
加快模型發布速度的壓力,以及不願在發布前進行可能引發問題的測試,是人工智慧評估效果不佳的主要原因。
“與我們交談過的一位在一家開發基礎模型的公司工作的人認為,公司內部存在著更大的壓力,要求快速發布模型,這使得推倒重來和認真開展評估變得更加困難,”瓊斯說。 “主要的人工智慧實驗室發布模型的速度超過了他們或社會確保模型安全可靠的能力”。
在ALI 的研究中,一位受訪者稱評估安全模型是一個”棘手”的問題。那麼,該行業–以及監管該行業的人–對解決方案抱有什麼希望呢?研究員馬希-哈達魯帕斯(Mahi Hardalupas)認為,前進的道路是存在的,但需要公共部門機構更多的參與。他說:”監管者和決策者必須清楚地闡明他們希望從評估中得到什麼。同時,評價界必須對評價目前的局限性和潛力保持透明。”
Hardalupas 建議各國政府授權公眾更多參與評估的製定工作,並採取措施支持第三方測試的”生態系統”,包括確保定期獲取所需的模型和數據集的計劃。
瓊斯認為,可能有必要進行”針對具體情況”的評估,這種評估不僅僅是測試模型如何響應提示,而是要研究模型可能影響的用戶類型(如特定背景、性別或種族的人),以及對模型的攻擊可能破壞保障措施的方式。
她補充說:”這將需要對評估的基礎科學進行投資,以便在了解人工智慧模型如何運作的基礎上,發展出更穩健、更可重複的評估。”
但可能永遠無法保證模型的安全。 “正如其他人所指出的,’安全’並不是模型的屬性,”Hardalupas 說。 “確定一個模型是否’安全’,需要了解它的使用環境、銷售對像或獲取對象,以及現有的保障措施是否足以降低這些風險。對基金會模式的評估可以起到探索作用,以確定潛在的風險,但不能保證模式是安全的,更不用說’完全安全’了。 “