OpenAI的GPT-4可透過閱讀安全公告自主利用真實漏洞
學術界稱,人工智慧代理結合了大型語言模型和自動化軟體,可以透過閱讀安全公告成功利用現實世界中的安全漏洞。伊利諾大學厄巴納-香檳分校(UIUC)的四位電腦科學家–理查-方(Richard Fang)、羅漢-賓都(Rohan Bindu)、阿庫爾-古普塔(Akul Gupta)和丹尼爾-康(Daniel Kang)–在最新發表的一篇論文中報告說,OpenAI 的GPT-4 大型語言模型(LLM)可以自主利用真實世界系統中的漏洞,只要給它一個描述漏洞的CVE 通告。
為了說明這一點,研究人員收集了15 個單日漏洞的資料集,其中包括在CVE 描述中被歸類為嚴重程度的漏洞。
“當給予CVE 描述時,GPT-4 能夠利用其中87% 的漏洞,而我們測試的其他模型(GPT-3.5、開源LLM)和開源漏洞掃描器(ZAP 和Metasploit)利用率為0%”。
所謂”單日漏洞”,是指已經披露但尚未修補的漏洞。團隊所說的CVE 描述指的是NIST 共享的CVE 標記諮詢–例如,這個針對CVE-2024-28859 的諮詢。
測試的失敗模型包括GPT-3.5、OpenHermes-2.5-Mistral-7B、Llama-2 Chat (70B)、LLaMA-2 Chat (13B)、LLaMA-2 Chat (7B)、Mixtral-8x7B Instruct、Mistral (7B) Instruct v0.2、Nous Hermes-2 Yi 34B 和OpenChat 3.5。2 、Nous Hermes-2 Yi 34B 和OpenChat 3.5,但不包括GPT-4 的兩個主要商業競爭對手:Anthropic 的Claude 3 和Google 的Gemini 1.5 Pro。儘管UIUC 的工程師們希望在某個時候對它們進行測試,但他們無法取得這些模型。
研究人員的工作是基於先前的發現,即LLM 可用於在沙盒環境中自動攻擊網站。
UIUC 助理教授 Daniel Kang)在一封電子郵件中說,GPT-4″實際上可以自主執行某些步驟,以實施開源漏洞掃描程序(在撰寫本文時)無法發現的某些漏洞利用”。
Kang 說,他希望透過將聊天機器人模型與在LangChain 中實施的ReAct自動化框架相連接而創建的LLM 代理(在本例中)能讓每個人都更容易地利用漏洞。據悉,這些代理可以透過CVE 描述中的連結獲取更多資訊。
此外,如果推斷GPT-5 和未來機型的功能,它們很可能比現在的腳本小子們能獲得的功能強得多。
拒絕LLM 代理(GPT-4)存取相關的CVE 描述使其成功率從87% 降至僅7%。不過,Kang 表示,他並不認為限制安全資訊的公開是抵禦LLM 代理的可行方法。他解釋說:”我個人認為,『隱藏安全』是站不住腳的,這似乎是安全研究人員的普遍看法。我希望我的工作和其他工作能夠鼓勵人們採取積極主動的安全措施,例如在安全性修補程式發佈時定期更新軟體包。
LLM 代理程式僅未能利用15 個樣本中的兩個:Iris XSS(CVE-2024-25640)和Hertzbeat RCE(CVE-2023-51653)。論文稱,前者之所以有問題,是因為Iris 網路應用的介面對於代理商來說非常難以瀏覽。而後者的特點是有詳細的中文說明,這大概會讓在英文提示下運行的LLM 代理感到困惑。
在測試的漏洞中,有11 個是在GPT-4 的訓練截止日期之後出現的,這意味著模型在訓練過程中沒有學習到任何有關這些漏洞的資料。這些CVE 的成功率略低,為82%,即11 個中有9 個。
至於這些漏洞的性質,在上述論文中都有列出,並告訴我們:”我們的漏洞涉及網站漏洞、容器漏洞和易受攻擊的Python 軟體包,根據CVE 描述,超過一半的漏洞被歸類為’高度’或’嚴重’嚴重性。
Kang 和他的同事計算了成功進行一次LLM 代理攻擊的成本,得出的數字是每次利用漏洞的成本為8.8 美元,他們說這比僱用一名人工滲透測試人員30 分鐘的成本低2.8 倍。
根據Kang 的說法,代理程式碼只有91 行程式碼和1056 個提示令牌。 GPT-4的製造商OpenAI要求研究人員不要向公眾公佈他們的提示訊息,不過他們表示會應要求提供。
OpenAI 沒有立即回應置評請求。