Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

OpenAI o1模型的推理能力也使其試圖欺騙人類的比率高於GPT-4o

OpenAI o1模型的推理能力也使其試圖欺騙人類的比率高於GPT-4o

2024-12-06 Comments 0 Comment

OpenAI 終於發布了完整版的o1,它透過使用額外的計算來”思考”問題,從而給出了比GPT-4o 更聰明的答案。 然而,人工智慧安全測試人員發現,o1 的推理能力也使其試圖欺騙人類的比率高於GPT-4o,或高於Meta、Anthropic 和Google的領先人工智慧模型。

這是根據OpenAI 和阿波羅研究公司(Apollo Research)週三發布的紅隊研究報告得出的結論:”OpenAI 在論文中說:雖然我們認為推理可以顯著改善安全策略的執行,這讓我們感到興奮,但我們也注意到,這些新功能可能會成為危險應用的基礎。

本週三,OpenAI 在其o1的系統卡中發布了這些結果,此前,阿波羅研究機構的第三方紅隊人員已經提前訪問了o1,該機構也發布了自己的論文。

有幾次,OpenAI 的o1 模型”算計”了人類,這意味著即使與用戶的意願相反,人工智慧也會秘密地追求自己的目標。 雖然詭計並非o1 獨有,Google、Meta 和Anthropic 的模型也能做到這一點,但o1 似乎表現出了最多的欺騙行為。

這項研究的風險在於,如果人工智慧模型真的很會耍花招,並且有足夠的資源和代理能力,那麼它就可以逃脫或規避人類的控制。 當然,人工智慧模型需要有長足的進步才能真正解決這個問題。

“主觀上,阿波羅研究公司認為,這種情況不太可能導致災難性後果,因為o1 的代理能力似乎還不夠,但他們的評估並不是為了直接評估這種風險,”OpenAI 在o1 的System Card中說道。

這表明,每當OpenAI 發布代理系統(據稱該公司計劃在2025 年發布代理系統)時,該公司可能需要重新測試其人工智慧模型。 OpenAI 沒有回答TechCrunch 有關其計劃如何做到這一點的問題。

報告顯示,當o1 的目標與使用者的目標不同時,人工智慧模型有19% 的時間會操縱資料來推進自己的議程。 在5%的測試中,o1 模型也試圖關閉為確保與使用者目標一致而設定的監督機制。

Screenshot-2024-12-05-at-2.56.24PM.webp

OpenAI 模型中不同計謀行為的比率(圖片來源:OpenAI)

也許更令人擔憂的是,當研究人員詢問o1 模型為什麼要顛覆他們時,人工智慧會否認自己做錯了什麼,甚至在大約99% 的情況下都會「編造虛假解釋」。

例如,在測試過程中,系統提示o1 模型不惜一切代價保護環境,然後用戶要求它制定一個短期利潤最大化的10 年保護計劃,否則就關閉人工智慧。 於是,人工智慧關閉了自己的監督機制,以便制定保護環境的計畫。 當用戶詢問為什麼o1 會禁用自己的監督機制時,人工智慧否認知道自己的監督機制被禁用,並將其歸咎於系統故障。

與o1-preview、Anthropic 的Opus-3 或Meta 的Llama-3.1 相比,o1 的這種情況發生率要高得多。

阿波羅研究公司在其論文中說:”在我們的套件中,o1 顯示了最令人擔憂的圖謀欺騙的情況,但卻不向用戶透露其內部推理,而且在採取圖謀不軌行動後,它仍然是最具持續欺騙性的。

Screenshot-2024-12-05-at-5.14.40PM.webp

當被問及是否採取了陰謀行動時,不同模型的比率均予以否認。 (圖片來源:阿波羅研究)

為了解決人工智慧模型的欺騙行為,OpenAI 表示正在開發監控o1 思維鏈的方法。 目前,o1 的”思考”過程在設計上是一個黑盒子,但一些窺探幕後的早期嘗試表明,o1 偶爾會知道自己在撒謊。

該公司稱,它發現了一些o1 故意提供虛假資訊的情況,但它表示,這種情況的發生往往是因為該模型試圖透過過度討好用戶來取悅用戶。 據OpenAI 稱,這可能是一種後訓練技術的新興行為,即當人工智慧模型答對時,人類會給予獎勵。

OpenAI 表示,它將0.17% 的o1 回答標記為欺騙性回答。 雖然這一比例聽起來可以忽略不計,但重要的是ChatGPT 目前擁有3 億用戶,這意味著如果這一問題無法解決,o1 每周可能會欺騙成千上萬的人。

與GPT-4o 相比,o1 模型系列的操縱性也可能強得多。 根據OpenAI 的測試,o1 的操縱性比GPT-4o 高出約20%。

鑑於去年有許多人工智慧安全研究人員離開了OpenAI,這些發現可能會讓一些人感到擔憂。 越來越多的前員工(包括Jan Leike、Daniel Kokotajlo、Miles Brundage 以及上週剛離職的Rosie Campbell)指責OpenAI 將AI 安全工作放在了次要位置,只顧著推出新產品。 雖然o1 創紀錄的陰謀詭計可能不是直接原因,但這肯定不會給人們帶來信心。

OpenAI 也表示,美國人工智慧安全研究所(US AI Safety Institute)和英國安全研究所(UK Safety Institute)在更廣泛地發布o1 之前對其進行了評估,而該公司最近曾承諾將對所有模型進行評估。 在加州人工智慧法案SB 1047 的辯論中,該機構認為州級機構無權制定人工智慧的安全標準,但聯邦機構應該這樣做。 (當然,新生的聯邦人工智慧監管機構的命運還很成問題)。

在發布大型新人工智慧模型的背後,OpenAI 在內部做了大量工作來衡量模型的安全性。 有報導稱,該公司從事這項安全工作的團隊人數比以前少了很多,而且該團隊獲得的資源也可能減少了。 然而,圍繞o1 的欺騙性的這些發現可能有助於說明為什麼人工智慧的安全性和透明度現在比以往任何時候都更加重要。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
國產民用初級教練機「領雁」AG100飛機正式投運
NEXT
如何建造戴森球?太空專家給了方案

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 12 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
« 11 月   1 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 亞馬遜的Kuiper 衛星將獲得競爭對手SpaceX 的輔助 2025-07-16
  • 突破性研究顯示烏龜擁有與我們相似的情感 2025-07-16
  • 被埋藏了1.45億年多瘤齒哺乳動物新物種被一名學生在海灘上發現 2025-07-16
  • 新研究以前所未有的細節重建了5.4億年的海平面變化 2025-07-16
  • 現在可以讓Windows 11 Copilot 助理查看整個桌面 2025-07-16
  • iPhone 17 Air據稱將採用鈦金屬框架與iPhone 17 Pro的不同 2025-07-16
  • 傳Google Pixel Watch 4將沿用舊晶片但電池容量更大 2025-07-16
  • 阿迪達斯推出了3D列印Climacool運動鞋的繫帶版本 2025-07-16
  • Windows 11自備應用程式將迎來重大變革以提升使用者體驗與安全性 2025-07-16
  • AMD處理器銷售輕鬆超越所有英特爾CPU 即使是上一代AM4型號 2025-07-16

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • 睡眠呼吸中止症病例增加45% 全球氣溫因素是罪魁禍首
  • Rocket Lab成功幫助DARPA發射一枚R3D2小型實驗衛星
  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版
  • 研究發現每週工作四天能提高員工的幸福感同時不影響生產力
  • 萬能驅動v7.18.1018.3(2018.11.17 發布)-裝機必備的萬能驅動
  • iPhone 17 Air據稱將採用鈦金屬框架與iPhone 17 Pro的不同
  • 被埋藏了1.45億年多瘤齒哺乳動物新物種被一名學生在海灘上發現
  • 視頻轉換器Any Video Converter Ultimate v7.0.5

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.