真能聽懂人話谷歌發布又一AI大模型黑科技
Google DeepMind再放AI機器人大招!週五,這家前沿AI研究機構宣布以訓練AI聊天機器人的方式訓練了一款全新的機器人模型Robotic Transformer 2(RT-2)。
RT-2相當於機器人版ChatGPT,被Google DeepMind稱作是其視覺-語言-動作(VLA)模型的新版本。該模型可以教會機器人更好地識別視覺和語言模態,能夠解釋人類用自然語言發出的指令,並推斷出如何做出相應的行動。它還可以理解英語以外的語言的指示。
結合思維鏈推理,RT-2可以執行多階段語義推理。即便是一些抽象概念,RT-2也能理解並指揮機械臂做出正確的動作。比如讓它找一把臨時用的簡易錘子,它會抓起石頭;讓它給疲憊的人選一款飲料,它會選擇紅牛;讓它把可樂罐移到泰勒·斯威夫特的照片上,它也能順利完成。
根據論文,RT-2模型基於網絡和機器人數據進行訓練,利用了Google自己的Bard等大型語言模型的研究進展,並將其與機器人數據(例如要移動的關節)相結合,然後將這些知識轉化為機器人控制的通用指令,同時保留web-scale能力。
Google DeepMind博客文章寫道,RT-2顯示出超越其所接觸的機器人數據的泛化能力以及語義和視覺理解能力,包括解釋新命令並通過執行基本推理(例如關於對像類別或高級描述的推理)來響應用戶命令。
其將信息轉化為行動的能力表明,機器人有望更快地適應新的情況和環境。
在對RT-2模型進行了超過6000次的機器人試驗後,研究團隊發現,RT-2在訓練數據或“可見”任務上的表現與之前的模型RT-1一樣好。它在新奇的、不可預見的場景中的表現幾乎翻番,從RT-1的32%提高到62%。
01讓機器人用AI大模型學習新技能
機器人技術領域正悄然進行一場革命——將大型語言模型的最新進展引入機器人,讓機器人變得更聰明,並具備新的理解和解決問題的能力。
《紐約時報》技術專欄作家凱文·羅斯(Kevin Roose)在Google機器人部門觀看了實際演示,工程師給機器人發出指令:“撿起滅絕的動物”,一個單臂機器人呼呼地響了一會兒,然後伸出機械臂,爪子張開落下,準確抓住了它面前桌子上的恐龍塑料製品。
▲《紐約時報》拍攝的視頻
在這場長達1小時的演示中,RT-2還成功執行了“將大眾汽車移到德國國旗上”的複雜指令,RT-2找到並抓住一輛大眾巴士模型,並將其放在幾英尺外的微型德國國旗上。
▲兩名Google工程師Ryan Julian(左)和Quan Vuong成功指示RT-2“將大眾汽車移到德國國旗上”。(圖源:《紐約時報》)
多年以來,Google和其他公司的工程師訓練機器人執行機械任務(例如翻轉漢堡)的方式是使用特定的指令列表對其進行編程。然後機器人會一次又一次地練習該任務,工程師每次都會調整指令,直到得到滿意的結果為止。
這種方法適用於某些有限的用途。但以這種方式訓練機器人,既緩慢又費力。它需要從現實世界的測試中收集大量數據。如果你想教機器人做一些新的事情(例如從翻轉漢堡改做翻轉煎餅),你通常必須從頭開始重新編程。
部分源於這些限制,硬件機器人的改進速度慢於基於軟件的同類機器人。
近年來,Google的研究人員有了一個想法:如果機器人使用AI大型語言模型(來為自己學習新技能,而不是逐一為特定任務進行編程,會怎樣?
據Google研究科學家卡羅爾·豪斯曼(Karol Hausman)介紹,他們大約兩年前開始研究這些語言模型,意識到它們蘊藏著豐富的知識,所以開始將它們連接到機器人。
高容量視覺-語言模型(VLM)在web-scale數據集上進行訓練,使這些系統非常擅長識別視覺或語言模式並跨不同語言進行操作。但要讓機器人達到類似的能力水平,他們需要收集每個物體、環境、任務和情況的第一手機器人數據。
RT-2的工作建立在RT-1的基礎上。這是一個經過多任務演示訓練的模型,可學習機器人數據中看到的任務和對象的組合。更具體地說,Google的研究工作使用了在辦公室廚房環境中用13個機器人在17 個月內收集的RT-1機器人演示數據。
Google首次嘗試將語言模型和物理機器人結合起來是一個名為PaLM-SayCan的研究項目,該項目於去年公佈,它引起了一些關注,但其用處有限。機器人缺乏解讀圖像的能力,而這是能夠理解世界的一項重要技能。他們可以為不同的任務寫出分步說明,但無法將這些步驟轉化為行動。
Google的新機器人模型RT-2就能做到這一點。這個“視覺-語言-動作”模型不僅能夠看到和分析周圍的世界,還能告訴機器人如何移動。
它通過將機器人的動作轉換為一系列數字(這一過程稱為標註)並將這些標註合併到與語言模型相同的訓練數據中來實現這一點。
最終,就像ChatGPT或Bard學會推測一首詩或一篇歷史文章中接下來應該出現什麼詞一樣,RT-2可以學會猜測機械臂應該如何移動來撿起球,或將空汽水罐扔進回收站垃圾桶。
02採用視覺語言模型進行機器人控制
RT-2表明視覺-語言模型(VLM)可以轉化為強大的視覺-語言-動作(VLA)模型,通過將VLM預訓練與機器人數據相結合,直接控制機器人。
RT-2以視覺-語言模型(VLM)為基礎,將一個或多個圖像作為輸入,並生成一系列通常代表自然語言文本的標註。此類VLM已接受web-scale數據的訓練,能夠執行視覺問答、圖像字幕或對象識別等任務。Google DeepMind團隊採用PaLI-X和PaLM-E模型作為RT-2的支柱。
為了控制機器人,必須訓練它輸出動作。研究人員通過將操作表示為模型輸出中的標註(類似於語言標註)來解決這一挑戰,並將操作描述為可以由標準自然語言標註生成器處理的字符串,如下所示:
▲RT-2訓練中使用的動作字符串的表示形式。這種字符串的示例可以是機器人動作標記編號的序列,例如“1 128 91 241 5 101 127 217”。
該字符串以一個標誌開頭,指示是繼續還是終止當前情節,而不執行後續命令,然後是更改末端執行器的位置和旋轉以及機器人夾具所需延伸的命令。
研究人員使用了與RT-1中相同的機器人動作離散版本,並表明將其轉換為字符串表示使得可以在機器人數據上訓練VLM模型,因為此類模型的輸入和輸出空間不需要改變了。
▲RT-2架構和訓練:研究人員針對機器人和網絡數據共同微調預先訓練的VLM模型。生成的模型接收機器人攝像頭圖像並直接預測機器人要執行的動作。
03泛化性能和緊急技能顯著更好
研究人員在RT-2模型上進行了一系列定性和定量實驗,進行了6000多次機器人試驗。
在探索RT-2的新興功能時,他們首先搜索了需要將web-scale數據的知識與機器人的經驗相結合的任務,然後定義三類技能:符號理解、推理和人類識別。
每項任務都需要理解視覺語義概念以及執行機器人控制以操作這些概念的能力。需要諸如“撿起即將從桌子上掉下來的袋子”之類的命令,其中要求機器人對機器人數據中從未見過的物體或場景執行操作任務將知識從基於網絡的數據轉化為可操作的。
▲機器人數據中不存在的新興機器人技能示例,需要通過網絡預訓練進行知識遷移。
在所有類別中,研究人員觀察到與之前的基線(例如之前的RT-1模型和Visual Cortex(VC-1)等模型)相比,RT-2的泛化性能提高到3倍以上,這些模型是在大型視覺數據集上進行預訓練的。
▲緊急技能評估的成功率:RT-2模型優於之前的RT-1和VC-1基線。
研究人員還進行了一系列定量評估,從最初的RT-1任務開始,在機器人數據中提供了示例,然後繼續對機器人進行不同程度的以前未見過的物體、背景和環境,要求機器人從VLM預訓練中學習泛化能力。
▲機器人以前未見過的環境示例,RT-2可以推廣到新的情況。
RT-2保留了機器人數據中看到的原始任務的性能,並提高了機器人在以前未見過的場景上的性能,從RT-1的32%提高到了62%,展示了大規模預訓練的巨大優勢。
此外,研究人員觀察到與僅視覺任務預訓練的基線相比有顯著改進,例如VC-1和機器人操作的Reusable Representations for Robotic Manipulation(R3M),以及用VLM進行對象識別的算法,例如Manipulation of Open-World Objects(MOO)。
▲RT-2在可見的分佈內任務上實現了高性能,並且在分佈外未見的任務上優於多個基線。
在機器人任務的開源Language Table套件上評估其模型,研究人員在模擬中實現了90%的成功率,高於之前的基線,包括BC-Z(72%)、RT-1(74%)和LAVA(77%)。
然後研究人員在現實世界中評估相同的模型(因為它是在模擬和真實數據上進行訓練的),並展示了其泛化到新對象的能力,如下所示,其中除了藍色立方體之外,沒有任何對像出現在訓練中數據集。
▲RT-2在真實機器人Language Table任務中表現良好。除了藍色立方體之外,訓練數據中不存在任何對象。
受大型語言模型中使用思維鏈提示方法的啟發,研究人員探索其模型,將機器人控制與思維鏈推理相結合,以便能夠在單個模型中學習長期規劃和簡易技能。
特別是,他們對RT-2的變體進行了幾百個梯度步驟的微調,以提高其聯合使用語言和動作的能力,然後對數據進行了擴充,添加了一個額外的“計劃”步驟,首先用自然語言描述機器人即將採取的動作的目的,然後是“動作”和動作標註。
這裡,研究人員展示了這種推理和機器人的最終行為的示例:
▲思想鏈推理可以學習一個獨立的模型,該模型既可以規劃長期技能序列,又可以預測機器人的動作。
通過這一過程,RT-2可以執行更多複雜的命令,這些命令需要推理完成用戶指令所需的中間步驟。得益於其VLM主幹,RT-2還可以根據圖像和文本命令進行規劃,從而實現基於視覺的規劃,而當前的計劃和行動方法(如SayCan)無法看到現實世界並完全依賴於語言。
04結語:機器人製造和編程控制方式的重大飛躍
多年來,研究人員們一直試圖讓機器人具有更好的推理能力,以解決如何在現實生活環境中生存的問題。以前,訓練機器人需要很長時間。研究人員必須單獨制定方向。但藉助RT-2等VLA模型的強大功能,機器人可以獲取更多信息來推斷下一步該做什麼。
加州大學伯克利分校機器人學教授肯·戈德堡(Ken Goldberg)說,機器人的靈巧程度仍達不到人類的水平,在一些基本任務上也表現不佳,但Google利用AI大型語言模型賦予機器人新的推理和即興創作技能,這是一個有希望的突破。
Google沒有立即計劃銷售RT-2機器人或更廣泛地發布它們,但其研究人員相信這些配備新語言的機器最終將不僅僅用於室內魔術,具有內置語言模型的機器人可以放入倉庫、用於醫藥,甚至可以用作家庭助理——折疊衣物、從洗碗機中取出物品、在房子周圍收拾東西。
Google DeepMind機器人技術主管文森特·範霍克(Vincent Vanhoucke)認為,這確實開啟了在有人所在的環境中使用機器人的大門——在辦公室環境中,在家庭環境中,在所有需要完成大量體力任務的地方。
當然,在雜亂無章的物理世界中移動物體,比在受控實驗室中移動物體要困難。人類本能地知道該如何清理潑到桌上的飲料,但機器人需要更多的指令才能去做這項看似輕而易舉的工作。
鑑於AI大型語言模型經常犯錯誤或發明無意義的答案,將它們用作機器人的大腦可能會帶來新的風險。但戈德堡教授說,這些風險仍然很小。“我們並不是在談論讓這些東西失控,”他說,“在這些實驗室環境中,他們只是試圖在桌子上推一些物體。”
Google方面表示,RT-2配備了大量安全功能。除了每個機器人背面都有一個紅色大按鈕(按下按鈕後機器人會停止在軌道上)之外,該系統還使用傳感器來避免撞到人或物體。
RT-2內置的AI軟件有自己的保護措施,可以用來防止機器人做出任何有害的事情。例如,Google的機器人經過訓練後不會拿起裝有水的容器,因為如果水溢出,它們的硬件可能會損壞。
Google的RT-2機器人並不完美。在實際演示中,它把一罐檸檬味蘇打水的味道錯猜成“橘子味”。還有一次被問到桌子上有什麼水果時,機器人回答成“白色”,而正確答案是香蕉。Google發言人解釋說,該機器人使用了緩存的答案來回答之前測試者的問題,因為它的Wi-Fi曾短暫中斷過。
但瑕不掩瑜。RT-2不僅是對現有VLM模型的簡單而有效的修改,而且還展示了構建通用物理機器人的前景,該機器人可以推理、解決問題和解釋信息,以在現實世界中執行各種任務。
在大型語言模型研究的啟發下,機器人正變得更加智能。