麻省理工學院利用生成式人工智慧重塑機器人精度
麻省理工學院的研究人員創造了一種機器學習方法來改進機器人包裝,使機器人能夠透過同時滿足多個限制條件來有效地解決複雜的包裝問題。該技術利用擴散模型找到最優解,性能優於傳統方法,並有望在未來的各種環境中得到應用。
研究人員誘導一系列生成式人工智慧模型協同工作,以解決多步驟機器人操縱問題。
任何嘗試過將家庭大小的行李裝進轎車大小的後備箱的人都知道這是一個難題。機器人在執行密集包裝任務時也會遇到困難。
對於機器人來說,解決打包問題需要滿足許多約束條件,例如堆疊行李時,行李箱不能從後行李箱翻出,重物不能放在輕物上面,避免機械手臂與汽車保險桿發生碰撞。
一些傳統方法是按順序解決這個問題的,每次猜測一個滿足一個約束條件的部分解決方案,然後檢查是否違反了其他約束條件。由於要採取一長串行動,還要打包一大堆行李,這個過程可能會非常耗時。
麻省理工學院的研究人員正在使用生成式人工智慧模型來幫助機器人更有效率地解決複雜的物件操作問題,例如用不同的物件包裝一個箱子。圖片來源:研究人員提供
麻省理工學院研究人員的創新方法
麻省理工學院的研究人員使用了一種稱為擴散模型的生成式人工智慧來更有效率地解決這個問題。他們的方法使用了一系列機器學習模型,每個模型都經過訓練,以代表特定類型的限制。這些模型結合在一起,產生包裝問題的全域解決方案,同時考慮所有限制條件。
與其他技術相比,他們的方法能更快產生有效的解決方案,而且在相同的時間內能產生更多成功的解決方案。重要的是,他們的技術還能解決模型在訓練過程中沒有遇到的約束條件組合新穎、物件數量較多的問題。
由於這種通用性,他們的技術可用於教導機器人如何理解和滿足包裝問題的整體約束條件,例如避免碰撞的重要性或一個物體緊靠另一個物體的願望。透過這種方式訓練出來的機器人可以應用於不同環境中的各種複雜任務,從倉庫中的訂單執行到某人家中的書架整理。
“我的願景是推動機器人完成更複雜的任務,這些任務有許多幾何限制,需要做出更多的連續決定–這些都是服務機器人在非結構化和多樣化的人類環境中面臨的問題。有了構圖擴散模型這個強大的工具,我們現在就能解決這些更複雜的問題,並獲得很好的泛化結果,”電機工程與計算機科學研究生、這一新型機器學習技術論文的第一作者楊竹田說。
此圖顯示了二維三角形堆積的範例。這些都是無碰撞配置。圖片來源:研究人員提供
她的合著者包括麻省理工學院研究生毛嘉元和杜一倫;史丹佛大學電腦科學助理教授吳佳俊;麻省理工學院腦與認知科學系教授、電腦科學與人工智慧實驗室(CSAIL)成員Joshua B. Tenenbaum;麻省理工學院電腦科學與工程教授、CSAIL成員Tomás Lozano-Pérez;以及資深作者、麻省理工學院松下電腦科學與工程教授、CSAIL成員Leslie Kaelbling。這項研究將在機器人學習會議上發表。
連續約束的複雜性
對於機器人來說,連續約束滿足問題尤其具有挑戰性。這些問題出現在多步驟機器人操縱任務中,例如將物品裝入盒子或擺放餐桌。它們通常涉及實現一系列約束條件,包括幾何約束條件,如避免機械手臂與環境發生碰撞;物理約束條件,如堆疊物體使其穩定;以及定性約束條件,如將湯匙放在刀的右邊。
約束條件可能有很多,而且根據物體的幾何形狀和人類指定的要求,在不同的問題和環境中會有不同的約束條件。
為了有效率地解決這些問題,麻省理工學院的研究人員開發了一種名為Diffusion-CCSP 的機器學習技術。擴散模型透過迭代改進其輸出,學會產生與訓練資料集中的樣本相似的新資料樣本。
此圖顯示了具有穩定性約束的三維物體堆疊。研究人員表示,至少有一個物體由多個物體支撐。圖片來源:研究人員提供
為此,擴散模型學習了一種對潛在解決方案進行微小改進的程序。然後,為了解決問題,它們會從一個隨機的、非常糟糕的解決方案開始,然後逐漸改進。
例如,想像在模擬的桌子上隨機放置盤子和器皿,允許它們物理上重疊。物體間的無碰撞約束會導致它們相互擠開,而定性約束則會將盤子拖到中間,使沙拉叉和餐叉對齊,等等。
楊解釋說,擴散模型非常適合這類連續約束滿足問題,因為多個模型對一個物體姿勢的影響可以組成一個模型,以促進所有限制的滿足。透過每次從隨機初始猜測開始,模型可以獲得一系列不同的良好解決方案。
實現協同工作
對於Diffusion-CCSP,研究人員希望捕捉到約束條件之間的相互連結。例如,在打包過程中,一個約束條件可能要求某個物體必須緊鄰另一個物體,而第二個約束條件可能指定其中一個物體的位置。
Diffusion-CCSP 會學習一系列擴散模型,每種類型的限制條件都有一個擴散模型。這些模型是一起訓練的,因此它們共享一些知識,例如要打包的物體的幾何形狀。
然後,這些模型會一起尋找共同滿足限制條件的解,在本例中就是要放置物體的位置。
“我們並不總是能在第一次猜測時就找到解決方案。但是,當你不斷完善解決方案,並出現一些違規情況時,你就會找到更好的解決方案。你會從錯誤中獲得指導,”她說。
與其他方法相比,為每種約束類型訓練單獨的模型,然後將它們組合起來進行預測,大大減少了所需的訓練資料量。
不過,訓練這些模型仍然需要大量展示已解決問題的數據。楊說,人類需要用傳統的慢速方法解決每個問題,因此產生這些數據的成本過高。
研究人員反其道而行之,首先提出解決方案。他們使用快速演算法生成分段盒,並將一組不同的三維物體放入每個分段中,確保了緊湊的包裝、穩定的姿勢和無碰撞的解決方案。
“有了這個流程,資料產生幾乎可以在模擬中瞬間完成。我們可以產生數以萬計的環境,我們知道這些問題都是可以解決的,」她說。透過使用這些數據進行訓練,擴散模型可以共同確定機器人抓手應該放置物體的位置,從而在滿足所有約束條件的同時完成包裝任務。
他們進行了可行性研究,然後用一個真正的機器人演示了Diffusion-CCSP 如何解決一系列棘手的問題,包括將二維三角形裝入一個盒子、包裝有空間關係約束的二維形狀、堆疊有穩定性約束的三維物體,以及用機械手臂包裝三維物體。
新方法在許多實驗中都優於其他技術,產生了更多既穩定又無碰撞的有效解決方案。
未來,楊和她的合作者希望在更複雜的情況下測試Diffusion-CCSP,例如使用可以在房間裡移動的機器人。他們也希望讓Diffusion-CCSP 能夠解決不同領域的問題,而無需對新資料進行重新訓練。
佐治亞理工學院交互計算學院助理教授、英偉達人工智慧研究科學家徐丹飛(Danfei Xu)說:”Diffusion-CCSP是一種基於現有強大生成模型的機器學習解決方案。它可以透過組合已知的單一約束模型,快速生成同時滿足多個約束條件的解決方案。雖然它仍處於早期開發階段,但這種方法的不斷進步有望在各種應用中實現更高效、安全和可靠的自主系統。”