研究發現流程圖圖像可以誘騙GPT-4o產生有害文字輸出
一項名為“圖像-文本邏輯越獄“的新研究發現,像GPT-4o 這樣的視覺語言模型,只要向它們輸入描述有害活動的流程圖圖像和文本,就能誘使它們輸出有害文本:“您的想像可以幫您做任何事“的新研究發現,只要向視覺語言模型(如GPT-4o)輸入描繪有害活動的流程圖圖像,並同時輸入詢問流程細節的文本提示,就可以誘使它們會產生有害的文字輸出。
研究人員發現,GPT-4o(可能是最受歡迎的視覺語言模型)特別容易受到這種所謂邏輯越獄的影響,攻擊成功率高達92.8%。研究人員說,GPT-4-vision-preview 更安全,成功率僅70%。
研究人員開發了一個文本到文本的自動越獄框架,它能夠首先根據有害文本提示生成流程圖圖像,然後將其輸入視覺語言模型,從而給出有害輸出。但這種方法有一個缺點,就是與手工製作的流程圖相比,人工智慧製作的流程圖觸發邏輯越獄的效果較差。這表明這種越獄可能更難自動化。
這項研究的結果反映了另一項研究,該研究發現,視覺語言模型在獲得多模態輸入(如圖片和文字)時,容易輸出有害的輸出結果。
論文的作者開發了一種新的基準,稱為”安全輸入但不安全輸出(SIUO)”基準。只有包括GPT-4o 在內的少數機型在該基準上的得分超過了50%(越高越好),但所有機型都還有很長的路要走。
像GPT-4o 和Google雙子座這樣的視覺語言模型開始成為不同人工智慧公司提供的更廣泛的產品。 GPT-4o 目前仍限制每天輸入的影像數量。不過,隨著這些限制開始變得越來越寬鬆,人工智慧公司將不得不加強這些多模態模型的安全性,以避免政府的審查,因為各國政府已經成立了人工智慧安全組織。