MIT博士讓機器人自學「常識」:大模型加持可自主完成複雜家務勞動
機器人是優秀的人類模仿者,但大多離不開人類的幫助,例如一些預設的程式設計。尤其是家用機器人,在面對複雜的家務勞動時,如果「大腦」中沒有足夠的常識,就很難滿足人類家庭的日常需求。如今,在大型語言模型(LLMs)的驅動下,家用機器人已經可以掌握“常識性知識”,能夠在沒有人類的幫助下進行自我糾正,出色地完成複雜的家務勞動。
相關研究論文以「Grounding Language Plans in Demonstrations Through Counterfactual Perturbations」為題,以會議論文的形式已發表在人工智慧(AI)頂會ICLR 2024 上。
麻省理工學院(MIT)電機工程與電腦科學系博士Yanwei Wang 為此研究論文的通訊作者。
他表示,模仿學習是實現家用機器人的主流方法。但是,如果機器人盲目地模仿人類的運動軌跡,微小的錯誤就會不斷累積,最終導致執行過程中的其他錯誤。“有了我們的方法,機器人就能自我糾正執行錯誤,提高整體任務的成功率。 ”
讓機器人掌握一點家務常識
從擦拭溢出物到端上食物,機器人正在學習如何完成越來越複雜的家務勞動。
實際上,許多家庭機器人都是透過模仿人類行為來學習的,它們被編程為複製人類指導它們完成的動作。
然而,由於以往的機器人不具備常識,除非人類工程師透過程式設計讓它們適應每一個可能的碰撞和輕推,否則它們不一定知道如何處理這些情況,就會從頭開始執行任務。
或許,透過加入一些“常識性知識”,機器人可以在面對將它們推離訓練軌道的情況時有所準備。
根據論文描述,Yanwei 等人透過一個簡單的日常任務驗證了他們提出的方法的有效性。任務看似非常簡單,即從一個碗中舀出彈珠,然後倒入另一個碗中。
然而,在先前的方法中,為了讓機器人完成這項任務,工程師往往會讓機器人在一個流體軌跡上完成「舀」和「倒」的動作,並可能多次重複,讓機器人模仿人類的一些示範動作。
問題是,雖然人類可能會一次演示一項任務,但這項任務取決於一系列子任務或軌跡。例如,機器人必須先將手伸進碗裡,然後才能舀水,在移動到空碗之前,它必須先舀起彈珠。如果機器人在這些子任務中的任何一個過程中受到推擠或犯錯,那麼它唯一的辦法就是停下來,從頭開始。
除非人類工程師明確標出每一個子任務,並為機器人編程或收集新的演示,從而讓機器人從上述失敗中恢復過來,在瞬間進行自我糾正。
「這種程度的規劃非常繁瑣,」 Yanwei 說。
於是,在這項研究中,Yanwei 及其團隊將機器人的運動數據與大型語言模型的「常識性知識」聯繫了起來。
他們使機器人能夠從邏輯上將許多給定的家務任務解析為子任務,並對子任務中的干擾進行調整。基於此,機器人就能繼續前進,而不必返回並從頭開始執行任務。而且重要的是,人類工程師也不必為每一個可能出現的故障編寫詳細的修復。
據介紹,這些深度學習模型可以處理大量的文字庫,並以此建立單字、句子和段落之間的連結。透過這些聯繫,大型語言模型可以根據它所學到的上一個字後面可能出現的字的類型來產生新的句子。
另外,除了句子和段落之外,大型語言模型還能根據提示產生特定任務所涉及的子任務的邏輯清單。例如,如果被要求列出將彈珠從一個碗中舀到另一個碗中的動作,模型可能會產生一系列動詞,如「夠」、「舀」、「運」和「倒」。
「大型語言模型可以使用自然語言告訴機器人如何完成任務的每一步。人類的連續演示就是這些步驟在物理空間中的體現,」 Yanwei 說,「我們希望將兩者聯繫起來,這樣機器人就能自動知道自己處於任務的哪個階段,並能自行重新規劃和恢復。 ”
Yanwei 表示,他們的演算法現在可以將遠端作業系統收集的數據轉化為強大的機器人行為,儘管有外部幹擾,機器人仍能完成複雜的任務。
不足與展望
儘管這項方法能夠使得機器人在沒有人類的幫助下進行自我糾正,從而完成複雜的家務勞動,但也存在一定的限制。
例如,雖然他們的方法不需要大量的人類演示,但它需要大量的試誤和具有重置能力的環境,以便收集軌蹟的任務成功標籤。不過,研究團隊表示,這種數據效率低的問題可以透過主動學習來解決。
此外,促使大型語言模型為學習分類器找到合適的狀態表示也需要一些技巧。在未來的工作中,他們希望以端到端的方式結合模式分類器來學習狀態表示。
參考連結:
https://sites.google.com/view/grounding-plans
https://news.mit.edu/2024/engineering-household-robots-have-little-common-sense-0325