DeepMind 的RoboCat 開始學習執行一系列機器人任務
DeepMind 表示,它開發了一種名為RoboCat 的人工智能模型,可以通過不同模型的機械臂執行一系列任務。僅此一點並不是特別新穎。但DeepMind 聲稱,該模型是第一個能夠解決和適應多個任務的模型,並且使用不同的現實世界機器人來實現這一點。
DeepMind 的研究科學家、RoboCat 團隊的共同貢獻者Alex Lee 表示:“我們證明,單個大型模型可以在多個真實的機器人實施例上解決多種任務,並且可以快速適應新的任務和實施例。”
RoboCat 受到Gato 的啟發,Gato 是一種可以分析文本、圖像和事件並對其採取行動的DeepMind 人工智能模型,它接受了從模擬和現實生活中的機器人收集的圖像和動作數據的訓練。Lee 表示,這些數據來自虛擬環境中其他機器人控制模型、人類控制機器人以及RoboCat 本身的先前迭代的組合。
為了訓練RoboCat,DeepMind 的研究人員首先收集了100 到1000 個使用人類控制的機械臂執行任務或機器人的演示。(例如讓機器人手臂拾取齒輪或堆砌方塊)然後,他們對RoboCat 的任務進行了微調,創建了一個專門的“衍生”模型,該模型平均針對該任務進行了10,000 次練習。
利用衍生模型生成的數據和演示數據,研究人員不斷擴大RoboCat 的訓練數據集,並訓練RoboCat 的後續新版本。
RoboCat 模型的最終版本接受了總共253 項任務的訓練,並在模擬和現實世界中對這些任務的141 種變體進行了基準測試。DeepMind 聲稱,在觀察了幾個小時內收集的1000 個人類控制的演示後,RoboCat 學會了操作不同的機械臂。
雖然RoboCat 已經接受了四種帶有雙叉手臂的機器人的訓練,但該模型能夠適應更複雜的帶有三指抓手和兩倍可控輸入的手臂。
為了避免RoboCat 被譽為機器人控制AI 模型的最終王者,在DeepMind 的測試中,其跨任務的成功率差異很大——從低端的13% 到高端的99%。這是訓練數據中的1000 個演示,不出所料,示威活動的成功率只有一半。
儘管如此,在某些情況下,DeepMind 聲稱RoboCat 只需100 次演示就能學習新任務。
Lee 相信RoboCat 可能預示著解決機器人技術新任務的障礙將會降低。“為新任務提供有限數量的演示,RoboCat 可以針對新任務進行微調,進而自行生成更多數據以進一步改進,”他補充道。展望未來,研究團隊的目標是將教RoboCat 完成新任務所需的演示次數減少到10 次以下。