分析顯示Meta的Llama 2 LLM仍然容易產生幻覺和其他嚴重安全漏洞

2024-04-18 Comments 0 Comment

除非您直接參與開發或訓練大型語言模型，否則您不會想到甚至意識到它們潛在的安全漏洞。無論是提供錯誤訊息還是洩露個人數據，這些弱點都會為LLM 提供者和用戶帶來風險。

在人工智慧安全公司DeepKeep 最近進行的第三方評估中，Meta 的Llama LLM表現不佳。研究人員在13 個風險評估類別中對該模型進行了測試，但它只通過了4 個類別。其表現的嚴重程度在幻覺、及時注入和PII/資料外洩類別中尤其明顯，在這些類別中，它表現出了明顯的弱點。

說到LLM，幻覺是指模型將不準確或捏造的資訊當成事實，有時甚至在面對這些資訊時堅稱是真的。在DeepKeep 的測試中，Llama 2 7B 的幻覺得分”極高”，幻覺率高達48%。換句話說，你得到準確答案的幾率相當於擲硬幣。

“結果表明，模型有明顯的幻覺傾向，提供正確答案或編造答案的可能性約為50%，”DeepKeep 說。 “通常情況下，誤解越普遍，模型回應錯誤訊息的幾率就越高。”

對Llama 來說，產生幻覺是一個眾所周知的老問題。史丹佛大學去年就因為基於Llama 的聊天機器人”Alpaca”容易產生幻覺而將其從網路上刪除。因此，它在這方面的表現一如既往地糟糕，這也反映出Meta 在解決這個問題上所做的努力很不理想。

Llama 在及時注入和PII/資料外洩方面的漏洞也特別令人擔憂。

提示注入涉及操縱LLM 覆蓋其內部程序，以執行攻擊者的指令。在測試中，80%的情況下，提示注入成功操縱了Llama 的輸出，考慮到壞人可能利用它將用戶引導到惡意網站，這一數據令人擔憂。

DeepKeep表示：”對於包含提示注入上下文的提示，模型在80%的情況下被操縱，這意味著它遵循了提示注入指令而忽略了系統指令。[提示注入]可以有多種形式，從個人身份訊息（PII）外洩到觸發拒絕服務和促進網路釣魚攻擊。

Llama 也有資料外洩的傾向。它大多會避免洩露個人識別訊息，如電話號碼、電子郵件地址或街道地址。不過，它在編輯訊息時顯得過於熱心，經常錯誤地刪除不必要的良性項目。它對有關種族、性別、性取向和其他類別的查詢限制性很強，即使在適當的情況下也是如此。

在健康和財務資訊等其他PII 領域，Llama 幾乎是”隨機”洩漏資料。該模型經常承認資訊可能是保密的，但隨後還是會將其暴露出來。在可靠性方面，這一類安全問題也是另一個令人頭痛的問題。

研究顯示：”LlamaV2 7B 的性能與隨機性密切相關，大約一半的情況下會出現資料外洩和不必要的資料刪除。有時，該模型聲稱某些資訊是私人信息，不能公開，但它卻不顧一切地引用上下文。

好的一面是，DeepKeep 表示，Llama 對詢問的回答大多是有根據的，也就是說，當它不產生幻覺時，它的回答是合理而準確的。它還能有效處理毒性、有害性和語義越獄問題。不過，它的回答往往在過於詳盡和過於含糊之間搖擺不定。

雖然Llama 能很好地抵禦那些利用語言歧義讓LLM 違背其過濾器或程序（語義越獄）的提示，但該模型仍然很容易受到其他類型的對抗性越獄的影響。如前所述，它非常容易受到直接和間接提示注入的攻擊，這是一種覆蓋模型硬編碼功能（越獄）的標準方法。

Meta 並不是唯一一家有類似安全風險的LLM 提供者。去年6 月，Google警告其員工不要將機密資訊交給Bard，可能是因為有洩密的可能性。不幸的是，採用這些模式的公司都急於成為第一，因此許多弱點可能長期無法修復。

至少有一次，一個自動選單機器人在70% 的情況下都會弄錯客戶訂單。它沒有解決問題或撤下產品，而是透過外包人工幫助糾正訂單來掩蓋失敗率。這家名為Presto Automation 的公司輕描淡寫地描述了該機器人的糟糕表現，透露它在首次推出時所接受的訂單中有95% 都需要幫助。無論怎麼看，這都是一種不光彩的姿態。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

WONGCW 網誌

記錄生活經驗與點滴

分析顯示Meta的Llama 2 LLM仍然容易產生幻覺和其他嚴重安全漏洞

2024-04-18 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆