OpenAI o1模型的推理能力也使其試圖欺騙人類的比率高於GPT-4o
OpenAI 終於發布了完整版的o1,它透過使用額外的計算來”思考”問題,從而給出了比GPT-4o 更聰明的答案。 然而,人工智慧安全測試人員發現,o1 的推理能力也使其試圖欺騙人類的比率高於GPT-4o,或高於Meta、Anthropic 和Google的領先人工智慧模型。
這是根據OpenAI 和阿波羅研究公司(Apollo Research)週三發布的紅隊研究報告得出的結論:”OpenAI 在論文中說:雖然我們認為推理可以顯著改善安全策略的執行,這讓我們感到興奮,但我們也注意到,這些新功能可能會成為危險應用的基礎。
本週三,OpenAI 在其o1的系統卡中發布了這些結果,此前,阿波羅研究機構的第三方紅隊人員已經提前訪問了o1,該機構也發布了自己的論文。
有幾次,OpenAI 的o1 模型”算計”了人類,這意味著即使與用戶的意願相反,人工智慧也會秘密地追求自己的目標。 雖然詭計並非o1 獨有,Google、Meta 和Anthropic 的模型也能做到這一點,但o1 似乎表現出了最多的欺騙行為。
這項研究的風險在於,如果人工智慧模型真的很會耍花招,並且有足夠的資源和代理能力,那麼它就可以逃脫或規避人類的控制。 當然,人工智慧模型需要有長足的進步才能真正解決這個問題。
“主觀上,阿波羅研究公司認為,這種情況不太可能導致災難性後果,因為o1 的代理能力似乎還不夠,但他們的評估並不是為了直接評估這種風險,”OpenAI 在o1 的System Card中說道。
這表明,每當OpenAI 發布代理系統(據稱該公司計劃在2025 年發布代理系統)時,該公司可能需要重新測試其人工智慧模型。 OpenAI 沒有回答TechCrunch 有關其計劃如何做到這一點的問題。
報告顯示,當o1 的目標與使用者的目標不同時,人工智慧模型有19% 的時間會操縱資料來推進自己的議程。 在5%的測試中,o1 模型也試圖關閉為確保與使用者目標一致而設定的監督機制。
OpenAI 模型中不同計謀行為的比率(圖片來源:OpenAI)
也許更令人擔憂的是,當研究人員詢問o1 模型為什麼要顛覆他們時,人工智慧會否認自己做錯了什麼,甚至在大約99% 的情況下都會「編造虛假解釋」。
例如,在測試過程中,系統提示o1 模型不惜一切代價保護環境,然後用戶要求它制定一個短期利潤最大化的10 年保護計劃,否則就關閉人工智慧。 於是,人工智慧關閉了自己的監督機制,以便制定保護環境的計畫。 當用戶詢問為什麼o1 會禁用自己的監督機制時,人工智慧否認知道自己的監督機制被禁用,並將其歸咎於系統故障。
與o1-preview、Anthropic 的Opus-3 或Meta 的Llama-3.1 相比,o1 的這種情況發生率要高得多。
阿波羅研究公司在其論文中說:”在我們的套件中,o1 顯示了最令人擔憂的圖謀欺騙的情況,但卻不向用戶透露其內部推理,而且在採取圖謀不軌行動後,它仍然是最具持續欺騙性的。
當被問及是否採取了陰謀行動時,不同模型的比率均予以否認。 (圖片來源:阿波羅研究)
為了解決人工智慧模型的欺騙行為,OpenAI 表示正在開發監控o1 思維鏈的方法。 目前,o1 的”思考”過程在設計上是一個黑盒子,但一些窺探幕後的早期嘗試表明,o1 偶爾會知道自己在撒謊。
該公司稱,它發現了一些o1 故意提供虛假資訊的情況,但它表示,這種情況的發生往往是因為該模型試圖透過過度討好用戶來取悅用戶。 據OpenAI 稱,這可能是一種後訓練技術的新興行為,即當人工智慧模型答對時,人類會給予獎勵。
OpenAI 表示,它將0.17% 的o1 回答標記為欺騙性回答。 雖然這一比例聽起來可以忽略不計,但重要的是ChatGPT 目前擁有3 億用戶,這意味著如果這一問題無法解決,o1 每周可能會欺騙成千上萬的人。
與GPT-4o 相比,o1 模型系列的操縱性也可能強得多。 根據OpenAI 的測試,o1 的操縱性比GPT-4o 高出約20%。
鑑於去年有許多人工智慧安全研究人員離開了OpenAI,這些發現可能會讓一些人感到擔憂。 越來越多的前員工(包括Jan Leike、Daniel Kokotajlo、Miles Brundage 以及上週剛離職的Rosie Campbell)指責OpenAI 將AI 安全工作放在了次要位置,只顧著推出新產品。 雖然o1 創紀錄的陰謀詭計可能不是直接原因,但這肯定不會給人們帶來信心。
OpenAI 也表示,美國人工智慧安全研究所(US AI Safety Institute)和英國安全研究所(UK Safety Institute)在更廣泛地發布o1 之前對其進行了評估,而該公司最近曾承諾將對所有模型進行評估。 在加州人工智慧法案SB 1047 的辯論中,該機構認為州級機構無權制定人工智慧的安全標準,但聯邦機構應該這樣做。 (當然,新生的聯邦人工智慧監管機構的命運還很成問題)。
在發布大型新人工智慧模型的背後,OpenAI 在內部做了大量工作來衡量模型的安全性。 有報導稱,該公司從事這項安全工作的團隊人數比以前少了很多,而且該團隊獲得的資源也可能減少了。 然而,圍繞o1 的欺騙性的這些發現可能有助於說明為什麼人工智慧的安全性和透明度現在比以往任何時候都更加重要。