微軟的新安全系統可捕捉客戶人工智慧應用程式中的幻覺
微軟負責人工智慧的首席產品長莎拉-伯德(Sarah Bird)表示,她的團隊設計了幾項新的安全功能,對於那些沒有僱用紅隊來測試他們構建的人工智慧服務的Azure 客戶來說,這些功能將非常容易使用。微軟表示,這些由LLM 驅動的工具可以檢測潛在漏洞,監控”可信任但不支援”的幻覺,並為使用託管在平台上的任何模型的Azure AI 客戶即時阻止惡意提示。
“我們知道客戶並不都精通提示注入攻擊或仇恨內容,因此評估系統會產生模擬這些類型攻擊所需的提示。然後,客戶可以獲得評分並看到結果,」她說。這有助於避免人工智慧生成器因不良或意外反應而引發的爭議,例如最近出現的明顯偽造名人(微軟的Designer 圖像生成器)、歷史上不準確的圖像(Google Gemini)或馬裡奧駕駛飛機撞向雙子星大樓(Bing)等事件。三項功能:提示屏蔽(Prompt Shields)可阻止提示注入或來自外部文件的惡意提示,這些提示會指示模型違反其訓練;基礎檢測(Groundedness Detection)可發現並阻止幻覺;安全評估(Safety evaluations)可評估模型的漏洞。用於引導模型實現安全輸出和追蹤提示以標記潛在問題用戶的其他兩個功能即將推出。無論是使用者輸入的提示訊息,還是模型正在處理的第三方數據,監控系統都會對其進行評估,看是否會觸發任何禁用字詞或有隱藏提示,然後再決定是否將其發送給模型回答。之後,系統會查看模型的回答,並檢查模型是否幻覺了檔案或提示中沒有的資訊。在Google Gemini圖片的案例中,為減少偏見而製作的濾鏡產生了意想不到的效果,微軟表示,在這一領域,其Azure AI 工具將允許更多的客製化控制。伯德承認,有人擔心微軟和其他公司可能會決定什麼適合或不適合人工智慧模型,因此她的團隊為Azure客戶添加了一種方法,可以切換過濾模型看到並阻止的仇恨言論或暴力。未來,Azure 用戶還可以獲得試圖觸發不安全輸出的用戶報告。伯德說,這可以讓系統管理員找出哪些使用者是自己的紅隊成員,哪些可能是懷有更多惡意的人。伯德說,這些安全功能會立即”附加”到GPT-4 和其他流行的模型(如Llama 2)上。不過,由於Azure 的模型花園包含許多人工智慧模型,使用較小、較少使用的開源系統的使用者可能需要手動將安全功能指向這些模型。微軟一直在利用人工智慧來加強其軟體的安全性,尤其是隨著越來越多的客戶開始對使用Azure 存取人工智慧模型感興趣。該公司還努力擴大其提供的強大人工智慧模型的數量,最近與法國人工智慧公司Mistral 簽訂了獨家協議,在Azure 上提供Mistral Large 模型。