麻省理工學院研究人員開發出訓練通用機器人的新方法
在動畫片《傑森一家》中,機器人女僕羅西可以無縫切換,從打掃房間、做飯再到倒垃圾。但在現實生活中,訓練通才機器人仍是一項重大挑戰。通常情況下,工程師會收集特定於某個機器人和任務的數據,然後利用這些數據在受控環境中訓練機器人。然而,收集這些數據的成本高且耗時,而且機器人可能很難適應以前從未見過的環境或任務。
(圖片來源:MIT)
根據外媒報道,為了更好地訓練通才機器人,麻省理工學院(MIT)的研究人員開發出多用途技術,將來自多個來源的大量異質資料整合至一個系統中,以教導不同機器人完成廣泛的任務。這種方法需要對齊來自不同領域的資料(如模擬和真實的機器人)和多種模式(包括視覺感測器和機械手臂位置編碼器),以實現生成式人工智慧(AI)模型可以處理的共享「語言」。相關研究發表在arXiv預印本伺服器上。
透過結合大量數據,這種方法可以訓練機器人執行各種任務,而無需每次都從頭開始。此方法比傳統技術更快、成本更低,因為需要的特定任務資料少得多。此外,在模擬和現實世界實驗中,其表現比從頭開始訓練高出20%以上。電子工程和電腦科學(EECS)研究生Lirui Wang表示:「在機器人技術領域,人們經常聲稱沒有足夠的訓練資料。但在我看來,另一個大問題是這些資料來自這麼多不同的領域、模式和機器人硬體。
受大語言模型(LLM)啟發
機器人「策略」透過感測器觀察,如攝影機影像或本體感知測量,追蹤機器人手臂的速度和位置,然後告訴機器人如何移動以及移動到何處。通常情況下,人們會透過模仿學習來訓練策略,這意味著需要人類演示動作或遠端操作機器人以產生數據,這些數據被回饋到學習策略的AI模型中。由於這種方法使用少量特定於任務的數據,因此機器人在環境或任務發生變化時經常會失敗。
為了發展更好的方法,研究人員從GPT-4等大語言模型中汲取靈感。這些模型使用大量不同的語言資料來進行預訓練,接著輸入少量特定任務資料進行微調。基於如此多數據進行預訓練,有助於模型適應並良好執行各種任務。 Wang表示:「在語言使用域(language domain),資料全部都是句子。在機器人技術中,考慮到資料中的所有異質性,如果想要以類似的方式進行預訓練,我們需要一種不同的架構。
機器人資料接受多種形式,如攝影機影像、語言指令和深度圖。同時,每個機器人都具有獨特的機械性,它們的手臂、夾持器和感測器的數量和方向都不同。此外,收集資料的環境差異很大。 MIT團隊開發了一種名為異質預訓練轉換器(HPT)的新架構,可以統一來自不同模式和領域的資料。研究人員將一個機器學習模型(稱為轉換器)置於架構中心,以處理視覺和本體感覺輸入。轉換器與構成大語言模型主幹的模型屬於同一類型。
研究人員將視覺和本體感覺資料對齊為同類型輸入(稱為token),以供轉換器處理。每個輸入都使用相同固定數量的通證(token)表示。然後,轉換器將所有輸入映射到共享空間,透過處理和學習更多的資料成長為巨大的預訓練模型。轉換器越大,其性能就越好。使用者只需向HPT提供關於機器人的設計、設定和他們希望其執行任務的少量數據。然後,HPT會將轉換器在預訓練中所獲得的知識轉移到學習新任務。
實現靈巧的動作
開發HPT的最大挑戰之一是創建大規模資料集來預先訓練轉換器,其中包括四類52個資料集(超過20萬個機器人軌跡),包括人類演示影片和模擬。研究人員還需要開發一種有效方法,將來自感測器陣列的原始本體感覺訊號轉換為轉換器可以處理的數據。 Wang表示:“本體感覺是實現許多靈巧動作的關鍵。我們架構中的通證數量總是相同的,所以我們同樣重視本體感覺和視覺。”
當測試HPT時,與每次從頭開始訓練相比,它在模擬和現實世界任務中的表現提高20%以上。即使任務與預訓練資料非常不同,HPT仍然可以提高效能。卡內基美隆大學(Carnegie Mellon University)機器人研究所副教授David Held(未參與這項工作)表示:「本文提供了一種新穎的方法,以訓練跨多個機器人實施例的單一策略。這可以跨多種資料集進行訓練,使機器人能夠學習方法,從而明顯擴大它們可以進行訓練的資料集規模。意義。
未來,研究人員希望探討如何透過資料多樣性來提升HPT的效能。他們還希望增強HPT,使其能夠處理未標記數據,如同GPT-4和其他大語言模型。 David Held表示:「我們的夢想是擁有一個通用機器人大腦,人們可以下載並將其用於自己的機器人,而無需進行任何訓練。雖然這還處於早期階段,但我們將繼續努力,並希望透過擴展實現機器人策略突破,就像大語言模型一樣。