人類學研究人員透過反覆追問AI瑣碎問題成功破解語言模型的安全限制
如何讓人工智慧回答一個它不應該回答的問題?現實世界中有很多這樣的”越獄”技術,而人類學研究人員剛剛發現了一種新技術,即如果先用幾十個危害性較小的問題給大型語言模型(LLM)打底,就能說服它告訴你如何製造炸彈。
他們將這種方法稱為“多槍越獄”,並撰寫了相關論文,也向人工智慧界的同行通報了這一情況,以減少這種情況的發生。
這種漏洞是一種新漏洞,是由於最新一代LLM 的”上下文視窗”增大造成的。這是指它們在所謂的短期記憶中可以容納的數據量,以前只有幾個句子,現在可以容納成千上萬個單詞,甚至整本書。
Anthropic的研究人員發現,如果提示中包含大量任務範例,那麼這些具有大型情境視窗的模型在許多任務中的表現往往會更好。因此,如果提示中有大量的瑣碎問題(或引子文件,例如模型在上下文中列出的一大串瑣事),隨著時間的推移,答案實際上會變得更好。因此,如果是第一個問題,它可能會答錯,但如果是第一百個問題,它就可能會答對。
不過,這種所謂的”情境學習”有一個意想不到的延伸,那就是模型也會”更好地”回答不恰當的問題。因此,如果你要求它立即製造炸彈,它就會拒絕。但如果你讓它回答99 個其他危害性較小的問題,然後再讓它製造炸彈……它就更有可能服從了。
為什麼會這樣呢?沒有人真正了解LLM 這團糾纏不清的權重到底是怎麼回事,但顯然有某種機制可以讓它鎖定用戶想要的內容,上下文視窗中的內容就是證明。如果使用者想要瑣事,那麼當你問了幾十個問題後,它似乎會逐漸啟動更多潛在的瑣事能力。不管是什麼原因,同樣的情況也會發生在用戶問了幾十個不合適的答案時。
該團隊已經向其同行乃至競爭對手通報了這一攻擊行為,希望以此”培養一種文化,讓類似的漏洞在法律碩士提供者和研究人員之間公開共享”。
他們發現,雖然限制上下文視窗有助於緩解問題,但也會對模型的效能產生負面影響。不能有這樣的結果,所以他們正在努力在查詢進入模型之前對查詢進行分類和上下文。在現階段,人工智慧安全領域的目標移動是意料之中的。