OpenAI的最新AI模型擁有新的保護措施來預防生物風險
OpenAI 表示,它部署了一個新系統來監控其最新的AI 推理模型o3 和o4-mini ,以檢測與生物和化學威脅相關的提示。根據OpenAI 的安全報告,該系統旨在防止這些模型提供可能指導某人實施潛在有害攻擊的建議。
OpenAI 表示,O3 和o4-mini 的效能較之前的車型有了顯著提升,因此也為惡意攻擊者帶來了新的風險。根據OpenAI 的內部基準測試,o3 在回答特定類型的生物威脅相關問題方面表現得更為熟練。基於這個原因,同時也為了降低其他風險,OpenAI 創建了新的監控系統,該公司將其描述為「以安全為中心的推理監控器」。
監視器基於o3 和o4-mini 運行,經過客製化訓練,能夠推理OpenAI 的內容政策。它旨在識別與生物和化學風險相關的提示,並指示模型拒絕提供這些主題的建議。
為了建立基準,OpenAI 讓紅隊成員花費大約1000 小時標記o3 和o4-mini 中與生物風險相關的「不安全」對話。 OpenAI 表示,在一項模擬其安全監視器「阻止邏輯」的測試中,這些模型98.7% 的時間拒絕回應風險提示。
OpenAI 承認,其測試沒有考慮到那些在被監視器阻止後可能會嘗試新提示的人,這就是為什麼該公司表示將繼續部分依賴人工監控。
OpenAI 表示,O3 和o4-mini 並未超出OpenAI 設定的生物風險「高風險」門檻。然而,OpenAI 表示,與o1 和GPT-4 相比,o3 和o4-mini 的早期版本在解答有關開發生物武器的問題方面更有幫助。

o3 和o4-mini 系統卡的圖表(截圖:OpenAI)
根據OpenAI 最近更新的防範框架,該公司正在積極追蹤其模型如何使惡意用戶更容易開發化學和生物威脅。
OpenAI 越來越依賴自動化系統來降低其模型的風險。例如,為了防止GPT-4o 的原生影像產生器創建兒童性虐待內容(CSAM),OpenAI 表示它使用了與該公司為o3 和o4-mini 部署的類似的推理監視器。
然而,一些研究人員擔心OpenAI 並未將安全性放在應有的位置。該公司的紅隊合作夥伴之一Metr 表示,他們幾乎沒有時間在基準測試o3 的欺騙行為上。同時,OpenAI 決定不發布其本週稍早發布的GPT-4.1 模型的安全報告。