基於GPT-4模型的新型NVIDIA AI代理可用於訓練複雜機器人技能

2023-10-21 Comments 0 Comment

英偉達研究院（NVIDIA Research）今天宣布，它已開發出一種名為”尤里卡”（Eureka）的新型人工智慧代理，該代理由OpenAI 的GPT-4 支持，可自主教授機器人複雜的技能。

該公司在一篇部落格文章中說，Eureka 可以自主編寫獎勵演算法，它首次訓練機器人的手像人類一樣完成快速轉筆技巧。尤里卡也教會了機器人打開抽屜和櫃子、拋接球、操作剪刀等近30個任務。

“強化學習在過去十年中取得了令人印象深刻的勝利，但仍然存在許多挑戰，例如獎勵設計，這仍然是一個試錯過程，”NVIDIA 公司人工智慧研究高級主管、Eureka 論文的作者阿尼瑪-阿南德庫馬爾（Anima Anandkumar）在博文中說。”Eureka是開發新演算法的第一步，它整合了生成學習和強化學習方法來解決困難任務。”

NVIDIA Research也發布了Eureka人工智慧演算法庫，供人們使用NVIDIA Isaac Gym（一個用於強化學習研究的實體模擬參考應用程式）進行實驗。Isaac Gym基於NVIDIA Omniverse構建，Omniverse是一個基於OpenUSD框架構建3D工具和應用的開發平台。

人工智慧代理的熱潮已持續數月之久，包括今年四月Auto-GPT、BabyAGI和AgentGPT等自主人工智慧代理的興起。

目前NVIDIA Research 的工作建立在先前工作的基礎上，包括最近的Voyager，這是一個使用GPT-4 構建的人工智慧代理，可以自主玩Minecraft。本週，《紐約時報》發表了一篇關於將聊天機器人轉變為線上代理商的文章，英屬哥倫比亞大學電腦科學教授、曾擔任OpenAI 研究員的傑夫-克魯尼（Jeff Clune）說：”這是一個巨大的商業機會，有可能帶來數萬億美元的收益。這對社會有巨大的上升空間和巨大的影響。”

在一篇題為《Eureka：透過編碼大型語言模型進行人類級獎勵設計》的新研究論文中，作者說，”Eureka利用最先進的LLM（如GPT-4）非凡的零點生成、代碼編寫和上下文改進能力，對獎勵代碼進行進化優化”。

由此產生的獎勵可用於透過強化學習來獲得複雜的技能。”在沒有任何特定任務提示或預定義獎勵範本的情況下，Eureka產生的獎勵函數優於人類設計的專家獎勵。在一套包含10 種不同機器人形態的29 種開源RL 環境中，Eureka 在83%的任務中表現優於人類專家，平均歸一化提高了52%。”

“Eureka是大型語言模型與英偉達GPU加速模擬技術的獨特結合，”英偉達高級研究科學家Jim Fan在博文中說，他也是該計畫的貢獻者之一。”我們相信，Eureka 將實現靈巧的機器人控制，並為藝術家提供一種製作物理逼真動畫的新方法。”

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

WONGCW 網誌

記錄生活經驗與點滴

基於GPT-4模型的新型NVIDIA AI代理可用於訓練複雜機器人技能

2023-10-21 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆