英國安全研究所發佈人工智慧模型安全性測試工具
英國安全研究所(UK Safety Institute)是英國最近成立的人工智慧安全機構,該機構發布了一個工具集,旨在”加強人工智慧安全”,使工業界、研究機構和學術界更容易開展人工智慧評估。該工具集名為Inspect,採用開源許可(特別是MIT許可),旨在評估人工智慧模型的某些能力,包括模型的核心知識和推理能力,並根據結果產生評分。
在周五宣布這一消息的新聞稿中,安全研究所聲稱,Inspect 標誌著”由國家支持的機構主導的人工智慧安全測試平台首次被廣泛使用」。
安全研究所主席伊恩-霍加斯(Ian Hogarth)在一份聲明中說:「人工智慧安全測試方面的成功合作意味著要有一個共享的、可訪問的評估方法,我們希望Inspect能夠成為一個基石。
眾所周知,人工智慧基準很難制定–其中最重要的原因是,當今最複雜的人工智慧模型幾乎都是黑盒,其基礎設施、訓練資料和其他關鍵細節都被創建這些模型的公司保密。那麼,Inspect 如何應對這項挑戰呢?主要是透過可擴展的新測試技術。
Inspect 由三個基本部分組成:資料集、求解器和評分器。數據集為評估測試提供樣本。求解器負責執行測試。評分器負責評估求解器的工作,並將測驗分數匯總為指標。可以透過用Python 編寫的第三方軟體包來增強Inspect 的內建元件。
Mozilla 研究員、著名人工智慧倫理學家德博拉-拉吉(Deborah Raj)在X 上發表了一篇文章,稱Inspect “證明了對人工智慧問責開源工具的公共投資的力量”。
人工智慧新創公司Hugging Face的執行長克萊門特-德朗格(Clément Delangue)提出了將Inspect與Hugging Face的模型庫整合在一起,或利用工具集的評估結果創建一個公共排行榜的想法。
Inspect 在發布之前,美國政府機構–國家標準與技術研究院(NIST)啟動了NIST GenAI,該計劃旨在評估各種生成式人工智慧技術,包括文字和圖像生成人工智慧。 NIST GenAI 計畫發布基準,協助創建內容真實性檢測系統,並鼓勵開發能識別虛假或誤導性人工智慧產生資訊的軟體。
今年4 月,美國和英國宣佈建立合作夥伴關係,共同開發先進的人工智慧模型測試,這是繼去年11 月英國在布萊切利公園舉行的人工智慧安全峰會上宣布承諾之後的另一項合作。作為合作的一部分,美國打算成立自己的人工智慧安全研究所,廣泛負責評估人工智慧和生成式人工智慧的風險。