Google RT-2 VLA模型可幫助機器人更快速地在融入新環境並開始工作
Google發布了一款名為機器人變形金剛2(Robotics Transformer 2 RT-2)的新型視覺-語言-動作(VLA)模型,並將其稱為”同類首創”。據Google稱,RT-2 能夠接受文本或圖像輸入,並輸出機器人動作。
該公司表示,訓練機器人可能是一項”艱鉅的工作”,因為它們需要針對世界上的每個物體、環境、任務和情況進行數十億點數據的訓練。不過,Google表示,RT-2為更多的通用機器人帶來了巨大的發展前景。
雖然該公司對RT-2所能帶來的好處感到興奮,但它表示,要讓機器人在以人為中心的環境中發揮作用,還有很多工作要做。DeepMind 認為,通用物理機器人可以從VLA 模型中產生,它們可以推理、解決問題和解釋信息,以執行現實世界中的任務。
顧名思義,這並不是機器人變形VLA 模型的第一次迭代。DeepMind表示,RT-2建立在RT-1的基礎上,與之前的模型相比,泛化能力有所提高,在新的、未見過的任務上表現更好。
與前代機器人相比,RT-2 的另一項新技能是符號推理,這意味著它能理解抽象概念並對其進行邏輯操作。其中一個例子是,機器人被要求將巴納移動到2 加1 的總和處,儘管它並沒有接受過抽像數學或符號操作的明確訓練,但它還是正確地完成了任務。
雖然RT-2 是機器人技術向前邁出的一大步,但宣布終結者機器人已經到來並不公平。該模型仍然需要人類的輸入和監督,並且在實際機器人操作中會遇到很大的技術限制。
儘管如此,我們還是希望它能帶來一些有趣的機器人,完成以前不可能或不容易完成的任務。