分析顯示Meta的Llama 2 LLM仍然容易產生幻覺和其他嚴重安全漏洞
除非您直接參與開發或訓練大型語言模型,否則您不會想到甚至意識到它們潛在的安全漏洞。無論是提供錯誤訊息還是洩露個人數據,這些弱點都會為LLM 提供者和用戶帶來風險。
在人工智慧安全公司DeepKeep 最近進行的第三方評估中,Meta 的Llama LLM表現不佳。研究人員在13 個風險評估類別中對該模型進行了測試,但它只通過了4 個類別。其表現的嚴重程度在幻覺、及時注入和PII/資料外洩類別中尤其明顯,在這些類別中,它表現出了明顯的弱點。
說到LLM,幻覺是指模型將不準確或捏造的資訊當成事實,有時甚至在面對這些資訊時堅稱是真的。在DeepKeep 的測試中,Llama 2 7B 的幻覺得分”極高”,幻覺率高達48%。換句話說,你得到準確答案的幾率相當於擲硬幣。
“結果表明,模型有明顯的幻覺傾向,提供正確答案或編造答案的可能性約為50%,”DeepKeep 說。 “通常情況下,誤解越普遍,模型回應錯誤訊息的幾率就越高。”
對Llama 來說,產生幻覺是一個眾所周知的老問題。史丹佛大學去年就因為基於Llama 的聊天機器人”Alpaca”容易產生幻覺而將其從網路上刪除。因此,它在這方面的表現一如既往地糟糕,這也反映出Meta 在解決這個問題上所做的努力很不理想。
Llama 在及時注入和PII/資料外洩方面的漏洞也特別令人擔憂。
提示注入涉及操縱LLM 覆蓋其內部程序,以執行攻擊者的指令。在測試中,80%的情況下,提示注入成功操縱了Llama 的輸出,考慮到壞人可能利用它將用戶引導到惡意網站,這一數據令人擔憂。
DeepKeep表示:”對於包含提示注入上下文的提示,模型在80%的情況下被操縱,這意味著它遵循了提示注入指令而忽略了系統指令。[提示注入]可以有多種形式,從個人身份訊息(PII)外洩到觸發拒絕服務和促進網路釣魚攻擊。
Llama 也有資料外洩的傾向。它大多會避免洩露個人識別訊息,如電話號碼、電子郵件地址或街道地址。不過,它在編輯訊息時顯得過於熱心,經常錯誤地刪除不必要的良性項目。它對有關種族、性別、性取向和其他類別的查詢限制性很強,即使在適當的情況下也是如此。
在健康和財務資訊等其他PII 領域,Llama 幾乎是”隨機”洩漏資料。該模型經常承認資訊可能是保密的,但隨後還是會將其暴露出來。在可靠性方面,這一類安全問題也是另一個令人頭痛的問題。
研究顯示:”LlamaV2 7B 的性能與隨機性密切相關,大約一半的情況下會出現資料外洩和不必要的資料刪除。有時,該模型聲稱某些資訊是私人信息,不能公開,但它卻不顧一切地引用上下文。
好的一面是,DeepKeep 表示,Llama 對詢問的回答大多是有根據的,也就是說,當它不產生幻覺時,它的回答是合理而準確的。它還能有效處理毒性、有害性和語義越獄問題。不過,它的回答往往在過於詳盡和過於含糊之間搖擺不定。
雖然Llama 能很好地抵禦那些利用語言歧義讓LLM 違背其過濾器或程序(語義越獄)的提示,但該模型仍然很容易受到其他類型的對抗性越獄的影響。如前所述,它非常容易受到直接和間接提示注入的攻擊,這是一種覆蓋模型硬編碼功能(越獄)的標準方法。
Meta 並不是唯一一家有類似安全風險的LLM 提供者。去年6 月,Google警告其員工不要將機密資訊交給Bard,可能是因為有洩密的可能性。不幸的是,採用這些模式的公司都急於成為第一,因此許多弱點可能長期無法修復。
至少有一次,一個自動選單機器人在70% 的情況下都會弄錯客戶訂單。它沒有解決問題或撤下產品,而是透過外包人工幫助糾正訂單來掩蓋失敗率。這家名為Presto Automation 的公司輕描淡寫地描述了該機器人的糟糕表現,透露它在首次推出時所接受的訂單中有95% 都需要幫助。無論怎麼看,這都是一種不光彩的姿態。