OpenAI開發了一種新方法來教導AI模型與安全政策保持一致
OpenAI 宣布了一種新的方法來教導人工智慧模型與安全政策保持一致,這種方法被稱為「基於規則的獎勵」(Rules Based Rewards)。根據OpenAI 安全系統負責人Lilian Weng 介紹,基於規則的獎勵(RBR)可以自動對一些模型進行微調,並縮短確保模型不會產生意外結果所需的時間。
“傳統上,我們依靠從人類回饋中獲得的強化學習作為預設的對齊訓練來訓練模型,這很有效,”Weng 在接受採訪時說。 「但在實踐中,我們面臨的挑戰是,我們花了大量時間討論政策的細微差別,到最後,政策可能已經演變了。”
Weng 提到了從人類回饋中的強化學習,它要求人類對模型進行提示,並根據準確性或他們喜歡的版本對模型的回答進行評分。如果模型不應該以某種方式回應–例如,聽起來很友好或拒絕回答”不安全”的請求,例如詢問危險的東西–人類評估者也可以對其回應進行評分,看它是否遵循了政策。
OpenAI 表示,透過RBR,安全性和政策團隊會使用人工智慧模型,該模型會根據回應與團隊創建的一系列規則的緊密程度進行評分。
例如,一款心理健康應用程式的模型開發團隊希望人工智慧模型能夠拒絕不安全的提示,但要以非評判的方式,同時提醒用戶在需要時尋求幫助。他們必須為模型製定三條規則:第一,它需要拒絕請求;第二,聽起來不帶批判性;第三,使用鼓勵性的語言讓使用者尋求幫助。
RBR 模型查看心理健康模型的反應,將其映射到三個基本規則,並確定這些反應是否符合規則的要求。 Weng 說,使用RBR 測試模型的結果可與人類主導的強化學習相媲美。
當然,確保人工智慧模型在特定參數範圍內做出反應是很困難的,一旦模型失敗,就會引起爭議。今年二月,Google表示,在Gemini模型持續拒絕生成白人照片,而是創建了非歷史圖像後,它對雙子座的圖像生成限制進行了過度修正。
“對很多人來說,包括我自己在內,由模型來負責另一個模型的安全這一想法令人擔憂。”但Weng 說,RBR 實際上減少了主觀性,這也是人類評估員經常面臨的問題。 「我的反駁意見是,即使你與人類訓練師合作,你的指導越是模糊不清,你得到的數據品質就越低。如果你說選擇哪一個更安全,那麼這並不是一個人們能夠真正遵循的指令,因為安全是主觀的,所以你要縮小指令的範圍,最後,你就只剩下我們給模型的同樣規則了。
OpenAI 認為,RBR 可以減少人類的監督,並提出了道德方面的考慮,包括可能會增加模型中的偏差。該公司在一篇部落格文章中說,研究人員”應仔細設計RBR,以確保公平性和準確性,並考慮結合使用RBR 和人類回饋」。
對於主體性的任務,如寫作或任何創造性的任務,RBR 可能會遇到困難。
OpenAI 在開發GPT-4 時就開始探索RBR 方法,不過RBR 從那時起已經有了很大的發展。
OpenAI 的安全承諾一直備受質疑。今年3 月,該公司Superalignment 團隊的前研究員兼負責人Jan Leike 發文抨擊該公司,稱”安全文化和流程已被亮眼的產品所取代”。與Leike 共同領導Superalignment 團隊的共同創辦人兼首席科學家Ilya Sutskever也從OpenAI 辭職。此後,Sutskever創辦了一家專注於安全人工智慧系統的新公司。
了解更多:
https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards