NIST發佈人工智慧模型風險測試工具
美國商務部負責為美國政府、公司和廣大公眾開發和測試技術的機構–國家標準與技術研究院(NIST)重新發布了一個測試平台,旨在測量惡意攻擊–尤其是”毒害”人工智慧模型訓練資料的攻擊–會如何降低人工智慧系統的效能。
這個模組化、開源的網路工具於2022年首次發布,名為Dioptra(取自經典的天文和測量儀器),旨在幫助訓練人工智慧模型的公司和使用這些模型的人評估、分析和追蹤人工智慧風險。 NIST 表示,Dioptra 可用於對模型進行基準測試和研究,還可提供一個通用平台,讓模型在”紅隊”環境中面臨模擬威脅。
“測試對抗性攻擊對機器學習模型的影響是Dioptra 的目標之一,”NIST 在一份新聞稿中寫道。 “這個開源軟體就像產生可供免費下載的孩子一樣,可以幫助包括政府機構和中小型企業在內的社區進行評估,以評估人工智慧開發者對其係統性能的宣稱。”
NIST DioptraDiatropa的介面截圖
Dioptra與NIST和NIST最近成立的人工智慧安全研究所的文件同時亮相,這些文件提出了減輕人工智慧某些危險的方法,例如人工智慧如何被濫用來產生未經同意的色情內容。在此之前,英國人工智慧安全研究所(UK AI Safety Institute)也推出了”檢查”(Inspect)工具包,該工具包同樣旨在評估模型的能力和整體模型的安全性。去年11 月,英國在布萊切利公園舉行的人工智慧安全高峰會上宣布,美國和英國將繼續合作,共同開發先進的人工智慧模型測試。
Dioptra 也是喬-拜登(Joe Biden)總統關於人工智慧的行政命令(EO)的產物,該行政命令(除其他事項外)要求NIST 協助進行人工智慧系統測試。與此相關,該行政令還制定了人工智慧安全和安保標準,包括要求開發模型的公司(如蘋果)在向公眾部署模型之前,必須通知聯邦政府並分享所有安全測試的結果。
正如我們之前所寫,人工智慧基準很難制定–其中最重要的原因是,目前最複雜的人工智慧模型都是黑盒子,其基礎設施、訓練資料和其他關鍵細節都被創建模型的公司保密。英國研究人工智慧的非營利研究機構艾達-拉芙蕾絲研究所(Ada Lovelace Institute)本月發布的一份報告發現,僅靠評估不足以確定人工智慧模型在現實世界中的安全性,部分原因是現行政策允許人工智慧供應商有選擇性地選擇進行哪些評估。
NIST 並未斷言Dioptra 可以完全消除模型的風險。但該機構確實提出,Dioptra 可以揭示哪些類型的攻擊可能會降低人工智慧系統的效能,並量化這些攻擊對效能的影響。
然而,Dioptra 的一個主要限制是,它只能在可下載和本地使用的模型(如Meta 不斷擴展的Llama 系列)上開箱即用。像OpenAI 的GPT-4o 這樣受API 限制的模型,至少目前還不能使用。