基於GPT-4模型的新型NVIDIA AI代理可用於訓練複雜機器人技能
英偉達研究院(NVIDIA Research)今天宣布,它已開發出一種名為”尤里卡”(Eureka)的新型人工智慧代理,該代理由OpenAI 的GPT-4 支持,可自主教授機器人複雜的技能。
該公司在一篇部落格文章中說,Eureka 可以自主編寫獎勵演算法,它首次訓練機器人的手像人類一樣完成快速轉筆技巧。尤里卡也教會了機器人打開抽屜和櫃子、拋接球、操作剪刀等近30個任務。
“強化學習在過去十年中取得了令人印象深刻的勝利,但仍然存在許多挑戰,例如獎勵設計,這仍然是一個試錯過程,”NVIDIA 公司人工智慧研究高級主管、Eureka 論文的作者阿尼瑪-阿南德庫馬爾(Anima Anandkumar)在博文中說。”Eureka是開發新演算法的第一步,它整合了生成學習和強化學習方法來解決困難任務。”
NVIDIA Research也發布了Eureka人工智慧演算法庫,供人們使用NVIDIA Isaac Gym(一個用於強化學習研究的實體模擬參考應用程式)進行實驗。Isaac Gym基於NVIDIA Omniverse構建,Omniverse是一個基於OpenUSD框架構建3D工具和應用的開發平台。
人工智慧代理的熱潮已持續數月之久,包括今年四月Auto-GPT、BabyAGI和AgentGPT等自主人工智慧代理的興起。
目前NVIDIA Research 的工作建立在先前工作的基礎上,包括最近的Voyager,這是一個使用GPT-4 構建的人工智慧代理,可以自主玩Minecraft。本週,《紐約時報》發表了一篇關於將聊天機器人轉變為線上代理商的文章,英屬哥倫比亞大學電腦科學教授、曾擔任OpenAI 研究員的傑夫-克魯尼(Jeff Clune)說:”這是一個巨大的商業機會,有可能帶來數萬億美元的收益。這對社會有巨大的上升空間和巨大的影響。”
在一篇題為《Eureka:透過編碼大型語言模型進行人類級獎勵設計》的新研究論文中,作者說,”Eureka利用最先進的LLM(如GPT-4)非凡的零點生成、代碼編寫和上下文改進能力,對獎勵代碼進行進化優化”。
由此產生的獎勵可用於透過強化學習來獲得複雜的技能。”在沒有任何特定任務提示或預定義獎勵範本的情況下,Eureka產生的獎勵函數優於人類設計的專家獎勵。在一套包含10 種不同機器人形態的29 種開源RL 環境中,Eureka 在83%的任務中表現優於人類專家,平均歸一化提高了52%。”
“Eureka是大型語言模型與英偉達GPU加速模擬技術的獨特結合,”英偉達高級研究科學家Jim Fan在博文中說,他也是該計畫的貢獻者之一。”我們相信,Eureka 將實現靈巧的機器人控制,並為藝術家提供一種製作物理逼真動畫的新方法。”