Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

Google DeepMind 推出評估AI模型危險性的新框架

Google DeepMind 推出評估AI模型危險性的新框架

2024-05-18 Comments 0 Comment

Google DeepMind 週五發布了一個框架,用於窺視人工智慧模型內部,以確定它們是否正在接近危險能力。週五發布的論文描述了這樣一個過程:每當用於訓練模型的計算能力提高六倍,或者微調三個月,DeepMind 的模型就會被重新評估。在兩次評估之間,DeepMind 將設計預警評估。

unnamed.webp

根據與Semafor 獨家分享的聲明,DeepMind 將與其他公司、學術界和立法者合作,共同完善該框架。該公司計劃在2025年前開始實施其審計工具。

如今,評估功能強大的前沿人工智慧模型更像是一個臨時過程,隨著研究人員開發新技術而不斷演變。 “紅隊”會花費數週或數月的時間對其進行測試,嘗試可能繞過保障措施的不同提示。然後,公司會採用各種技術,從強化學習到特殊提示,讓模型符合要求。

這種方法對現在的模型很有效,因為它們還不夠強大,不足以構成太大的威脅,但研究人員認為,隨著模型能力的增強,需要一個更強大的過程。批評者擔心,當人們意識到這種技術已經走得太遠時,為時已晚。

DeepMind 發布的”前沿安全框架”希望解決這個問題。這是包括Meta、OpenAI 和微軟在內的主要科技公司為減輕人們對人工智慧的擔憂而宣布的幾種方法之一。

該公司表示:”儘管這些風險超出了現有模型的能力範圍,但我們希望實施和改進該框架將有助於我們做好應對這些風險的準備。”

unnamed.webp

DeepMind 開發人工智慧模型”預警“系統已有一年多時間。它也發表了關於評估模型的新方法的論文,這些方法遠遠超出了目前大多數公司所使用的方法。

前沿模型框架將這些進展納入一套簡潔的協議中,包括對模型的持續評估,以及研究人員在發現所謂”臨界能力水平”時應採取的緩解方法。這可能是指模型能夠透過操縱人類對其施加意志,在人工智慧研究領域被稱為”超常代理”,也可能是指模型具有編寫複雜惡意軟體的能力。

DeepMind 為四個領域設定了具體的關鍵能力等級:自主、生物安全、網路安全和機器學習研發。

該公司表示:「在降低風險與促進獲取和創新之間取得最佳平衡,對於負責任地發展人工智慧至關重要。」DeepMind 將於下週在首爾舉行的人工智慧安全峰會上討論該框架,屆時其他業界領袖也將出席。

令人鼓舞的是,DeepMind 的人工智慧研究人員正在用更科學的方法確定人工智慧模型內部發生了什麼,儘管他們還有很長的路要走。

研究人員在能力方面取得突破的同時,也在提高他們理解並最終控制這些軟體的能力,這對人工智慧安全也很有幫助。

不過,今天發布的論文對如何進行這些評估的技術細節著墨不多。就目前而言,可以說我們還不知道目前的技術是否能讓這個框架成功。

這其中還有一個有趣的監管因素。由加州參議員 Scott Wiener發起的一項新的人工智慧綜合法案將要求人工智慧公司在訓練模型之前對其危險性進行評估。這個框架是目前看到的第一個可能使遵守該法律成為可能的框架。但同樣還不清楚技術上是否可行。

還有一點:建構這些技術還有另一種用途:它可以幫助公司預測人工智慧模型的能力在未來幾個月或幾年內會發生怎樣的變化。這些知識可以幫助產品團隊更快地設計出新產品,從而為Google和其他有能力進行這些評估的公司帶來優勢。

了解更多:

https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
傳微軟Xbox Game Pass漲價在即
NEXT
《刺客教條:影子》首席女編劇被國外網友找到

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 5 月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 4 月   6 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 暑假矯正季,讓笑容更閃亮! 2025-07-18
  • 告別鬆弛皺紋!熱瑪姬的『射頻技術』如何打造凍齡肌膚? 2025-07-18
  • Firefox新版本將支援Chrome已有多年的WebGPU功能 2025-07-17
  • 彩虹正式上架統信UOS 直接運行Windows應用 2025-07-17
  • 美團高層承諾:將保證美團騎士收入永遠站穩藍領第一梯隊 2025-07-17
  • 科尼賽克CEO直言:電動超跑沒有靈魂我們不造 2025-07-17
  • HTC預告VIVE神秘新品或為首款智慧眼鏡 2025-07-17
  • 據傳PS5 Pro將在明年5月進行性能升級推測為《GTA6》做準備 2025-07-17
  • 德國玩家偏愛A卡銷量佔65%超NV:RX9070XT賣最好 2025-07-17
  • 三星和SK海力士因意外需求推遲DDR4記憶體淘汰計劃 2025-07-17

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • Autodesk AutoCAD 2020.1 正式版-簡體中文/繁體中文/英文
  • 告別鬆弛皺紋!熱瑪姬的『射頻技術』如何打造凍齡肌膚?
  • 思恩時代開業福利
  • 巴西一11歲女孩長了81顆牙齒醫師直呼活久見
  • 一鍵GHOST v2020.07.20 正式版-硬盤版/光盤版/優盤版/軟盤版
  • 暑假矯正季,讓笑容更閃亮!
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴
  • 您可以在Windows 11 24H2 中找回WordPad
  • 新研究顯示非洲古老艾草療法可用於對抗結核病

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.