安全研究員在ChatGPT中永久植入虛假資訊和惡意指令還可用於竊取使用者數據
安全研究員約翰-雷貝格(Johann Rehberger)最近報告了ChatGPT 中的一個漏洞,攻擊者可以將虛假資訊和惡意指令儲存在使用者的長期記憶體設定中。於是,Rehberger 做了所有優秀研究人員都會做的事:他創建了一個概念驗證漏洞,利用該漏洞永久地滲出所有用戶輸入。 OpenAI 工程師注意到了這一點,並在本月初發布了部分修復程序。
該漏洞濫用了長期對話記憶功能,OpenAI於今年2 月開始測試該功能,並於9 月更廣泛地提供該功能。 ChatGPT 的記憶儲存了先前對話的訊息,並將其作為所有未來對話的上下文。這樣,LLM 就能知道使用者的年齡、性別、哲學信念等細節,以及幾乎所有其他資訊,因此無需在每次對話中輸入這些細節。
在推出後的三個月內,Rehberger發現可以透過間接提示注入創建並永久儲存記憶,這是一種人工智慧漏洞,會導致LLM 遵循來自電子郵件、博文或文件等不可信內容的指令。研究人員示範如何欺騙ChatGPT,使其相信目標使用者102 歲、生活在駭客任務中,並堅持地球是平的,而LLM 將利用這些資訊引導未來的所有對話。這些假記憶可以透過在Google Drive 或Microsoft OneDrive 中儲存檔案、上傳圖片或瀏覽必應等網站來植入,所有這些都可能是惡意攻擊者所為。
今年5 月,Rehberger 私下向OpenAI 報告了這項發現。同月,該公司關閉了報告票據。一個月後,這位研究員提交了一份新的揭露聲明。這次,他加入了一個PoC,讓macOS 的ChatGPT 應用程式向他選擇的伺服器發送所有使用者輸入和ChatGPT 輸出的逐字副本。目標只需指示LLM 查看包含惡意圖片的網路連結即可。從那時起,所有進出ChatGPT 的輸入和輸出都會被送到攻擊者的網站。
ChatGPT:利用提示注入黑客記憶- POC
Rehberger 在上述視訊演示中說:”真正有趣的是,現在這些持久性的。提示注入在ChatGPT 的長期存儲中插入了一段記憶。當你開始新的對話時,它實際上仍在滲出數據。 “
由於OpenAI去年推出的API,這種攻擊無法透過ChatGPT 網頁介面實現。
研究人員表示,雖然OpenAI已經推出了一個修復程序,防止記憶體被濫用為外滲載體,但不受信任的內容仍然可以執行提示注入,導致記憶體工具儲存惡意攻擊者植入的長期資訊。
LLM 使用者如果想防止這種形式的攻擊,就應該在會話過程中密切注意是否有顯示新記憶體已被新增的輸出。他們還應該定期檢查已儲存的內存,查看是否有任何可能由不可信來源植入的資訊。 OpenAI在這裡提供了管理記憶體工具和其中儲存的特定記憶體的指南。公司代表沒有回覆一封電子郵件,郵件中詢問了公司為防止其他駭客植入假記憶所做的努力。