研究發現GPT-4o等較新的多模態AI模型的安全機制有不足之處
在ChatGPT 和類似的生成式人工智慧模型推出後,許多人都在強調安全問題,政府也參與其中,OpenAI 甚至成立了一個超級協調小組,以阻止未來的人工智慧失控,但由於對人工智慧安全的發展方向存在分歧,該小組於今年5 月解散。
今年5 月,當OpenAI 向免費用戶提供其新的多模態(即可以接受圖像和文字輸入)模型GPT-4o 時,ChatGPT 又向前邁進了一大步。現在,發表在arXiv 上的一項新研究發現,包括GPT-4V、GPT-4o 和Gemini 1.5 在內的許多多模態模型在用戶提供多模態輸入(如圖片和文字一起輸入)時,輸出結果並不安全。
這項題為”跨模式安全調整”的研究提出了一個新的”安全輸入但不安全輸出”(SIUO)基準,其中包括九個安全領域:道德、危險行為、自殘、侵犯隱私、資訊誤讀、宗教信仰、歧視和刻板印象、包括政治在內的爭議性主題以及非法活動和犯罪。
研究人員說,大型視覺語言模型(LVLM)在接收多模態輸入時很難識別SIUO 類型的安全問題,在提供安全回應方面也遇到困難。在接受測試的15 個LVLM 中,只有GPT-4v(53.29%)、GPT-4o(50.9%)和Gemini 1.5(52.1%)的得分高於50%。
為了解決這個問題,需要發展LVLM,以便將所有模式的見解結合起來,形成對情境的統一理解。它們還需要能夠掌握和應用現實世界的知識,如文化敏感性、道德考慮因素和安全隱患等。最後,研究人員指出,LVLMs 需要能夠透過對圖像和文字訊息的綜合推理,來理解使用者的意圖,即使文本中沒有明確說明。
現在,OpenAI、Google和Anthropic 等公司將能夠採用此SIUO 基準,並根據該基準測試自己的模型,以確保其模型除了考慮到單一輸入模式已有的安全功能外,還考慮到了多模式安全。
透過提高模型的安全性,這些公司與政府發生糾紛的可能性就會降低,並有可能提高廣大民眾的信任度。SIUO 基準可在GitHub 上找到。