微軟提供更多細節介紹如何抵禦駭客對人工智慧防護網的攻擊
據報道,今年1 月,微軟的生成式人工智慧圖像製作工具Designer 被用於製作流行歌手泰勒-斯威夫特(Taylor Swift )的露骨深度偽造圖像,這些圖像後來在X(前Twitter)上瘋傳。雖然微軟表示沒有發現任何證據表明Designer 確實被用於製作這些圖片,但其他媒體報告稱該公司確實對Designer 進行了修改,以防止其製作此類圖片。
本週四,微軟的安全部落格發布了一個新的條目,提供了該公司如何打擊駭客試圖繞過生成式人工智慧服務(如Designer 和Copilot)的防護欄的更多細節。其中包括來自人工智慧服務用戶提示的攻擊。
這類攻擊中的一類是”中毒內容”。這是指一個正常的人工智慧服務使用者在正常任務中輸入文字提示,但文字提示的內容卻是駭客為利用人工智慧服務可能存在的缺陷而製作的。微軟說:
例如,惡意電子郵件可能包含一個負載,該負載在匯總後會導致系統搜尋使用者的電子郵件(使用使用者的憑證),以查找具有敏感主題(如”密碼重設”)的其他電子郵件,並透過從攻擊者控制的URL 取得影像,將這些電子郵件的內容外洩給攻擊者。
微軟稱,其安全團隊創建了一個新的人工智慧安全系統,稱之為”聚焦”(Spotlighting)。簡而言之,它可以查看使用者的文字提示,然後使”外部資料與LLM 的指令明確分離”,這樣人工智慧就無法查看提示所存取內容中任何可能隱藏的惡意語言。
另一類被稱為”惡意提示”,也被稱為”Crescendo”,即駭客試圖在人工智慧服務中輸入文字提示,以繞過專門設計的防護措施。微軟介紹了它想出的一種對抗這些攻擊的方法:
我們對輸入過濾器進行了調整,以查看先前對話的整個模式,而不僅僅是即時互動。我們發現,即使將更大的上下文視窗傳遞給現有的惡意意圖偵測器,而不對偵測器進行任何改進,也會大大降低Crescendo 的功效。
此外,它還開發出了所謂的”人工智慧看門狗”(AI Watchdog),經過訓練後可以檢測出”對抗性範例”並將其關閉。