用GPT-4訓練機器人英偉達最新Agent開源:任務越複雜越拿手
英偉達Eureka在超過80%的任務中都超越人類專家,讓機器人平均效能提升到50%以上。訓練機器人,AI比人類更拿手!英偉達最新AI AgentEureka ,用GPT-4生成獎勵函數,結果教導機器人完成了三十多個複雜任務。例如,快速轉筆,打開抽屜和櫃子、拋球和接球。
尤其是轉筆這個技能,要知道靠人類逐幀製作動畫,也是非常困難的。
最終,Eureka在超過80%的任務中都超越人類專家,讓機器人平均效能提升到50%以上。
這項研究吸引了數十萬網友關注,有人表示:直接快轉到它彈鋼琴那天,直接為大眾所用。
英偉達科學家,也是這次共同作者之一Jim Fan評價到,它是超級人類獎勵工程師。它可以輔助機器人工程師設計複雜任務。
目前該專案完全開源。
GPT-4生成獎勵策略
在機器人學習中,大模型擅長產生高階語義規劃和中級操作,例如拾取和放置(VIMA、RT-1等),但在複雜任務控制方面有所欠缺。
而Eureka的關鍵所在,就是透過上下文來實現了人類層級的獎勵演算法設計。
簡單來說,就是用GPT-4的零樣本生成、程式碼編寫以及上下文改善功能,對獎勵執行策略進行最佳化,由此透過強化學習來進行複雜的技能。
研究人員提出了一種混合梯度架構,外循環運行GPT-4 來細化獎勵函數(無梯度),而內循環運行強化學習來訓練機器人控制器(基於梯度)。
主要有三個關鍵組成部分:
- 模擬器環境代碼作為上下文啟動初始“種子”獎勵函數。
- GPU上的大規模平行強化學習,可以快速評估大量候選獎勵。
- 獎勵反射reward reflection,得益於GPT-4評估和修改能力,一步步迭代。
首先,無需任何特定提示工程和獎勵模版。使用原始Isaac Gym (一種GPU加速的實體模擬器)環境程式碼作為上下文,產生初始獎勵函數。
這種無梯度的情境學習方式,可以根據各種形式的人類輸入,產生表現更強、符合開發人員願景的獎勵函數。
其次,Eureka在每個演化步驟中都會產生許多候選函數,然後利用強化學習訓練來進行快速評估。
以往這種過程需要幾天甚至幾週來完成,但由Isaac Gym可將模擬時間提高1000倍,強化學習內循環能在幾分鐘完成。
最後,依賴獎勵反射,Eureka也支援一種新形式的上下文RLHF。它能夠將人類操作員的回饋融入自然語言中,以引導和調整獎勵功能。
最終,在29種不同的開源RL環境中,83%基準測試中Eureka都優於人類,並實現了52%改進。
這些環境包括10種不同的機器人形態,例如四足機器人、四旋翼機器人、雙足機器人、機械手等。
讓研究人員驚訝的是,尤其在處理複雜、高維度馬達控制的任務上,Eureka表現較好,且與人類獎勵的相關性越低。
甚至在少數情況下,AI的策略與人類的策略呈現負相關。
這就有點像當年AlphaGo的下棋策略,人類看不懂學不會,但十分有效。
英偉達出品
這項研究由英偉達、賓州大學、加州理工學院、德州大學奧斯汀分校的研究人員來完成。
可以看到的是,近半數研究人員都是華人。
一作是Yecheng Jason Ma,目前是賓大GRASP 實驗室的四年級博士生,研究方向是強化學習和機器人學習。
英偉達科學家Jim Fan此次也是通訊作者之一。
咳咳,不過至於網友提到的彈鋼琴,Jim Fan自己曾分享過:只需幾個簡單按鈕,AI就能即時即興生成演奏音樂。
不知道,未來會不會這樣的呢?(不過,這研究已經是2018年的了)
來源:量子位