Google RT-2 VLA模型可幫助機器人更快速地在融入新環境並開始工作

Google發布了一款名為機器人變形金剛2（Robotics Transformer 2 RT-2）的新型視覺-語言-動作（VLA）模型，並將其稱為”同類首創”。據Google稱，RT-2 能夠接受文本或圖像輸入，並輸出機器人動作。

該公司表示，訓練機器人可能是一項”艱鉅的工作”，因為它們需要針對世界上的每個物體、環境、任務和情況進行數十億點數據的訓練。不過，Google表示，RT-2為更多的通用機器人帶來了巨大的發展前景。

雖然該公司對RT-2所能帶來的好處感到興奮，但它表示，要讓機器人在以人為中心的環境中發揮作用，還有很多工作要做。DeepMind 認為，通用物理機器人可以從VLA 模型中產生，它們可以推理、解決問題和解釋信息，以執行現實世界中的任務。

顧名思義，這並不是機器人變形VLA 模型的第一次迭代。DeepMind表示，RT-2建立在RT-1的基礎上，與之前的模型相比，泛化能力有所提高，在新的、未見過的任務上表現更好。

與前代機器人相比，RT-2 的另一項新技能是符號推理，這意味著它能理解抽象概念並對其進行邏輯操作。其中一個例子是，機器人被要求將巴納移動到2 加1 的總和處，儘管它並沒有接受過抽像數學或符號操作的明確訓練，但它還是正確地完成了任務。

雖然RT-2 是機器人技術向前邁出的一大步，但宣布終結者機器人已經到來並不公平。該模型仍然需要人類的輸入和監督，並且在實際機器人操作中會遇到很大的技術限制。

儘管如此，我們還是希望它能帶來一些有趣的機器人，完成以前不可能或不容易完成的任務。

WONGCW 網誌