史丹佛團隊新作:喊話就能指導機器人任務成功率暴增
史丹佛的ALOHA家務機器人團隊,發布了最新研究成果——項目名為Yell At Your Robot(簡稱YAY),有了它,機器人的「翻車」動作,只要喊句話就能糾正了!而且機器人可以隨著人類的喊話動態提升動作水平、即時調整策略,並根據回饋持續自我改進。
例如在這個場景中,機器人沒能完成系統設定的「把海綿放入袋子」的任務。
這時研究者直接朝它喊話,“用海綿把袋子撐得再開一些”,之後就一下子成功了。
而且,這些修正的指令還會被系統記錄下來,成為訓練數據,用來進一步提高機器人的後續表現。
有網友看了說,既然已經能朝機器人喊話了,那汽車是不是也快點安排上,還在線點名特斯拉和其自動駕駛軟體總監Ashok Elluswamy。
成果發表後,前Google機器人資深研究員Eric Jang,前DeepMind研究員、史丹佛客座教授Karol Hausman等一眾大佬也紛紛表示了肯定和讚許。
那麼,用喊話調整的機器人,都能實現什麼樣的動作呢?
喊話就能發號施令
利用YAY技術調教後,機器人以更高的成功率挑戰了物品裝袋、水果混合和洗碗這三項複雜任務。
這三種任務的特點是都需要兩隻手分別完成不同的動作,其中一隻手要穩定地拿住容器並根據需要調整姿態,另一隻手則需要準確定位目標位置並完成指令,而且過程中也涉及海綿這種軟性物體,拿捏的力道也是一門學問。
以打包裝袋這個任務為例,機器人在全自主執行的過程中會遇到各種各樣的困難,但透過喊話就能見招拆招。
只見機器人在將裝袋的過程中不小心把海綿掉落了下來,然後便無法再次撿起。
這時,開發者直接朝它喊話,口令就是簡單的「往我這邊挪一挪,然後往左」。
當依照指令做出動作後,第一次還是沒成功,但機器人記住了「往左」這個指令,再次左移之後便成功把海綿撿起來了。
但緊接著就出現了新的困難——袋子的口被卡住了。
這時只要告訴它再把袋子打開一點點,機器人就“心領神會”,調整出了一系列後續動作,並最終成功完成任務。
而且不只是能糾正錯誤,任務的細節也能透過喊話即時調整,例如在裝糖的任務中,開發者覺得機器人拿的糖有點多了,只要喊出“少一點”,機器人就會將一部分糖果倒回盒子。
進一步地,人類發出的這些指令也會被系統記錄並用作微調,以提高機器人的後續表現。
例如在刷盤子這項任務中,經過微調後的機器人清潔力道更強,範圍也變大了。
統計數據表明,機器人在經歷這種微調之後,平均任務成功率提高了20%,如果繼續加入喊話指令還能繼續提高。
而且這樣的指令-微調過程可以迭代進行,每迭代一次機器人的表現都能有所提升。
那麼,YAY具體是如何實現的呢?
人類教誨“銘記在心”
架構上,整個YAY系統主要由高階策略和低階策略這兩個部分組成。
其中高階策略負責產生指導低階策略的語言指令,低階策略則用於執行具體動作。
具體來說,進階策略將相機捕捉到的視覺訊息編碼,與相關知識結合,然後由Transformer產生包含當前動作描述、未來動作預測等內容的指令。
而低階策略接收到語言指令後,會解析這些指令中的關鍵字,並對應到機器人關節的目標位置或運動軌跡。
同時,YAY系統引入了即時的語言糾正機制,人類的口頭命令優先順序最高——經識別後,直接傳遞給低階策略用於執行。
而在這個過程中命令會被系統記錄並用於微調高級策略——透過學習人類提供的糾正性回饋,逐漸減少對即時口頭糾正的依賴,從而提高長期任務的自主成功率。
在完成基礎訓練並已經在真實環境中部署後,系統仍然可以繼續收集指令訊息,不斷地從回饋中學習並進行自我改進。
作者簡介
本計畫的第一作者是史丹佛大學的學生研究員Lucy X. Shi,2019年畢業於人大附中後進入南加州大學就讀電腦科學專業。
其間,Lucy曾到英偉達實習研究多模態大模型,並曾與知名AI學者Jim Fan博士合作。
她的論文曾連續兩年被機器人頂會CoRL收錄,也曾入選NeurIPS,本人也曾被DeepMind邀請發表演講。
Lucy的指導教授Chelsea Finn是史丹佛電腦科學與電機工程系助理教授,Google學術論文引用數超4.7萬,先前也曾在Google Brain工作過一段時間。
包括本計畫在內,在ALOHA團隊發表的一系列論文當中,Finn總是作為通訊作者出現。
此外,ALOHA團隊的Tony Z. Zhao、Sergey Levine等研究人員,也是本文的共同作者。
來源:量子位