Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

用GPT-4訓練機器人英偉達最新Agent開源:任務越複雜越拿手

用GPT-4訓練機器人英偉達最新Agent開源:任務越複雜越拿手

2023-10-23 Comments 0 Comment

英偉達Eureka在超過80%的任務中都超越人類專家,讓機器人平均效能提升到50%以上。訓練機器人,AI比人類更拿手!英偉達最新AI AgentEureka ,用GPT-4生成獎勵函數,結果教導機器人完成了三十多個複雜任務。例如,快速轉筆,打開抽屜和櫃子、拋球和接球。

尤其是轉筆這個技能,要知道靠人類逐幀製作動畫,也是非常困難的。

最終,Eureka在超過80%的任務中都超越人類專家,讓機器人平均效能提升到50%以上。

這項研究吸引了數十萬網友關注,有人表示:直接快轉到它彈鋼琴那天,直接為大眾所用。

英偉達科學家,也是這次共同作者之一Jim Fan評價到,它是超級人類獎勵工程師。它可以輔助機器人工程師設計複雜任務。

目前該專案完全開源。

GPT-4生成獎勵策略

在機器人學習中,大模型擅長產生高階語義規劃和中級操作,例如拾取和放置(VIMA、RT-1等),但在複雜任務控制方面有所欠缺。

而Eureka的關鍵所在,就是透過上下文來實現了人類層級的獎勵演算法設計。

簡單來說,就是用GPT-4的零樣本生成、程式碼編寫以及上下文改善功能,對獎勵執行策略進行最佳化,由此透過強化學習來進行複雜的技能。

研究人員提出了一種混合梯度架構,外循環運行GPT-4 來細化獎勵函數(無梯度),而內循環運行強化學習來訓練機器人控制器(基於梯度)。

主要有三個關鍵組成部分:

  • 模擬器環境代碼作為上下文啟動初始“種子”獎勵函數。
  • GPU上的大規模平行強化學習,可以快速評估大量候選獎勵。
  • 獎勵反射reward reflection,得益於GPT-4評估和修改能力,一步步迭代。

首先,無需任何特定提示工程和獎勵模版。使用原始Isaac Gym (一種GPU加速的實體模擬器)環境程式碼作為上下文,產生初始獎勵函數。

這種無梯度的情境學習方式,可以根據各種形式的人類輸入,產生表現更強、符合開發人員願景的獎勵函數。

其次,Eureka在每個演化步驟中都會產生許多候選函數,然後利用強化學習訓練來進行快速評估。

以往這種過程需要幾天甚至幾週來完成,但由Isaac Gym可將模擬時間提高1000倍,強化學習內循環能在幾分鐘完成。

最後,依賴獎勵反射,Eureka也支援一種新形式的上下文RLHF。它能夠將人類操作員的回饋融入自然語言中,以引導和調整獎勵功能。

最終,在29種不同的開源RL環境中,83%基準測試中Eureka都優於人類,並實現了52%改進。

這些環境包括10種不同的機器人形態,例如四足機器人、四旋翼機器人、雙足機器人、機械手等。

讓研究人員驚訝的是,尤其在處理複雜、高維度馬達控制的任務上,Eureka表現較好,且與人類獎勵的相關性越低。

甚至在少數情況下,AI的策略與人類的策略呈現負相關。

這就有點像當年AlphaGo的下棋策略,人類看不懂學不會,但十分有效。

英偉達出品

這項研究由英偉達、賓州大學、加州理工學院、德州大學奧斯汀分校的研究人員來完成。

可以看到的是,近半數研究人員都是華人。

一作是Yecheng Jason Ma,目前是賓大GRASP 實驗室的四年級博士生,研究方向是強化學習和機器人學習。

英偉達科學家Jim Fan此次也是通訊作者之一。

咳咳,不過至於網友提到的彈鋼琴,Jim Fan自己曾分享過:只需幾個簡單按鈕,AI就能即時即興生成演奏音樂。

不知道,未來會不會這樣的呢?(不過,這研究已經是2018年的了)

來源:量子位

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
三星SDI和現代汽車首次簽署電池供應協議:滿足50萬輛電動車所需
NEXT
任天堂美國總裁談Switch2 重點不是性能而是畫面會發生什麼

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2023 年 10 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
« 9 月   11 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 全面推動「凋零骷髏塔」標準化建設的網路大狂歡是怎麼開啟的? 2025-05-23
  • Windows記事本不再「簡單」 微軟為其新增AI寫作功能 2025-05-23
  • 基於Sora的微軟新工具Bing Video Creator挑戰Veo 各平台均可免費用 2025-05-23
  • 科學家發明結合紅外線和可見光的夜視鏡片 2025-05-23
  • Bluesky 將開始驗證「知名」用戶 2025-05-23
  • Anthropic CEO稱人工智慧模式產生的幻覺其實比人類少 2025-05-23
  • 這些韓國老年海女已擁有基因層面的“超能力” 2025-05-23
  • 防止顯示卡接口燒熔玩家給RTX 4090電源線裝上保險絲還有更狠的 2025-05-23
  • BMWSpeedtop概念車官圖發表售價超過400萬的雙門獵裝轎跑 2025-05-23
  • 馬雲上榜《時代》全球百大慈善人物榜單 2025-05-23

熱門文章與頁面︰

  • 微軟員工再次擾亂Satya Nadella 的主題演講
  • 您可以在Windows 11 24H2 中找回WordPad
  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版
  • ROG NUC 2025迷你遊戲PC上市:Ultra 9 275HX+RTX 5080首發24999元
  • 索泰展示全球最小RTX 5060 Ti 16GB主機機箱容量僅2.65公升
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • 一汽豐田開卷電動車全新bZ5開啟預售:入門版價格不超13萬
  • 電影《尋秦記》宣布2025賀歲檔上映古天樂等原班人馬回歸
  • 彩虹-YH1000無人物流機首飛成功一口氣能飛1500公里
  • 戴森展示新款超薄吸塵器PencilVac 與吹風機一樣纖薄

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.