Google概述了利用影片和大型語言模型訓練機器人的新方法
2024 年將是生成式人工智慧/大型基礎模型和機器人技術交叉領域的重要一年。從學習到產品設計,各種應用的潛力讓人興奮不已。Google的DeepMind 機器人研究人員是探索這一領域潛力的眾多團隊之一。在今天的一篇部落格文章中,團隊重點介紹了正在進行的研究,這些研究旨在讓機器人更好地理解我們人類希望它們做些什麼。
傳統上,機器人的一生都專注於重複執行單一的任務。單一用途的機器人往往非常擅長這一件事,但即使是這樣,當無意中出現變化或錯誤時,它們也會遇到困難。
新發表的AutoRT 旨在利用大型基礎模型,達到多種不同目的。在DeepMind 團隊給出的一個標準範例中,該系統首先利用視覺語言模型(VLM)來提高態勢感知能力。AutoRT 能夠管理一個協同工作的機器人艦隊,並配備攝像頭,以獲取環境佈局和其中的物體。
同時,大型語言模型也能提出硬體(包括終端執行器)可以完成的任務。許多人認為,語言模型是開啟機器人技術的關鍵,它能有效理解更多的自然語言指令,並減少對硬程式設計技能的需求。
在過去的七個多月裡,該系統已經進行了大量測試。AutoRT 能夠同時協調多達20 個機器人和52 種不同的設備。總之,DeepMind 已經收集了大約77,000 次測試,其中包括6000 多項任務。
團隊的新產品還有RT-Trajectory,它利用視訊輸入進行機器人學習。許多團隊都在探索使用YouTube 影片作為大規模訓練機器人的方法,但RT-Trajectory 增加了一個有趣的層次,即在影片上疊加手臂動作的二維草圖。
團隊指出:「這些軌跡以RGB 影像的形式,在模型學習機器人控制策略時為其提供了低層次的實用視覺提示。”
DeepMind 表示,在測試41 項任務時,該訓練的成功率是RT-2 訓練的兩倍,分別為63% 和29%。
“RT-Trajectory利用了豐富的機器人運動訊息,這些資訊存在於所有機器人資料集中,但目前尚未充分利用,”團隊指出。”RT-Trajectory不僅代表著在製造能夠在新情況下高效準確移動的機器人的道路上又邁進了一步,而且還釋放了現有數據集中的知識”。