為機器人安上“最強大腦” 谷歌VLA新模型泛化能力提升3倍能“聽懂人話”
一個單臂機器人“站”在桌前,桌上放著三個塑料動物玩具:獅子、鯨魚與恐龍。收到“撿起滅絕的動物”指令後,這個機器人“思考”了一會兒,然後甚至機械臂,打開爪子,抓起了恐龍。這是Google最新一款機器人模型Robotic Transformer 2(機器人變形金剛2,RT-2)。
上文這個“抓起恐龍”的動作對於人類而言輕而易舉,對於機器人而言卻堪稱一個重要飛躍——之前機器人經常無法操縱自己從未見過的東西,也難以實現從“滅絕的動物”到“塑料恐龍”的邏輯飛躍。
作為一款新型視覺-語言-動作(vision-language-action,VLA)模型,RT-2可以從網絡、機器人數據中學習,並將這些知識轉化為機器人控制的通用指令。
相較於其他機器人研究,RT-2的核心優勢在於,其不僅能直接接收“人話”指令,聽懂“人話”、理解“人話”,還能做出相應推理,並轉為機器人能理解的分階段指令,從而做出動作完成任務。
RT-2完成的每一項任務,都要求其理解視覺語義概念、並通過控制機器人實現操作這些概念。
例如接到“撿起桌子上快掉下去的袋子”、“將香蕉移動到2加1的總和處”這種指令時,機器人需要對相應物體/場景執行任務,而這些物體與場景它從未在機器人數據中見過,需要從網絡數據中轉化得到相應知識。
總體而言,RT-2具備三大能力:符號理解(Symbol understanding)、推理(Reasoning)和人類識別(Human recognition)。
(1)符號理解是指RT-2可以從視覺語言預訓練中轉移了語義知識,而這些語義知識在機器人數據中並不存在。這類指令示例包括“將蘋果移到3號位置”或“將可樂罐推到心形上”。
圖|符號理解指令示例
(2)推理則是將VLM的各種推理能力用於任務控制,包括視覺推理(“將蘋果移到相同顏色的杯子裡”)、數學推理(“將X移到2加1之和的附近”)、多語言理解(“mueve la manzana al vaso verde”,西班牙語)。
圖|推理指令示例
(3)人類識別是以人類為中心的理解和識別能力,RT-2可以完成“將可樂罐移到戴眼鏡的人身邊”這類任務。
圖|人類識別指令示例
此外,研究人員還將機器人控制與思維鏈推理相結合。首先用自然語言描述機器人即將採取的動作的目的,然後是“動作”和動作標記。
例如在下圖中,RT-2接收到的要求是“我想釘個釘子,場景裡什麼東西可能能用上?”,RT-2轉化得出了“石頭。動作:1 129 138 122 132 132 106 127”的指令,並拿起了石頭。
RT-2還能更好地適用於不同的、機器此前沒見過的場景。比起在大型數據集上預訓練的RT-1、Visual Cortex(VC-1)等模型,RT-2泛化能力大幅提高,較前者提高了3倍有餘。
加利福尼亞大學伯克利分校的機器人學教授Ken Goldberg表示,機器人的靈巧性仍達不到人類水平,在一些基本任務上也會失敗,但Google利用人工智能語言模型,賦予機器人推理和隨機應變的新技能,是一個很有希望的突破。