25分鐘訓練機器人學會6個動作伯克利開發高效機器人操縱框架
這個機械臂正在完成夠、拿、移、推、點、開等6個動作。而且動作嫻熟,還不存在失誤。更令人意外的是,訓練這個機械臂,只花了短短25分鐘。即使有人為乾擾,它也能夠成功完成抓取動作。還能抓起以前沒有見過的物體形狀。
這就是來自加州大學伯克利分校的一項新研究——高效機器操作框架Framework for Efficient Robotic Manipulation(FERM),專門對機械臂進行高效率操作的算法訓練。
FERM為什麼比其他方法效率高?
目前來看,大多數針對機器人訓練的的RL算法效率都不是很好。
採用稀疏獎勵的方法訓練Dota5遊戲的人機操作,使之成為達到人類玩家的高手水平,需要花180年的遊戲時間。
訓練一個機械臂的手勢,則需要上千萬的模擬學習的樣本和兩週的訓練時間。
Sim2Real和模擬學習這兩個方法稍微好點。Sim2Real需要接受模擬訓練,再將訓練結果運用到現實事例中。
模擬學習則需要通過一系列的專業訓練示範案例和監督學習,才能得出最後的訓練策略,實驗結果非常依賴於輸入示範案例的質量。
FERM優勢在於,既沒有依靠模擬訓練轉換到現實,也不用高度依賴於輸入的示範案例的質量。
而是基於非監督性表徵學習和數據擴張技術,使用了pixel-based RL。
因此,它僅僅需要10個Demo,25分鐘的訓練時間,就可以讓機器人學會六個動作。
FERM具體怎麼訓練?
FERM採用了基於像素的強化學習(pixel-based RL)方法。
具體而言,先收集小部分演示數據,並且將這些數據存放在“回放緩衝區”上。
然後,用觀察結果結合對比損失量,來對編碼器進行預訓練。
而後,編碼器和“回放緩衝區”運用一種線下的數據來加強RL算法,對RL智能體進行訓練。
在論文中,研究人員總結了FERM主要優點:
1、高效率:FERM可以學習6種不同操作任務的最優策略,在15-50分鐘的訓練時間內完成每項任務。
2、簡單統一的框架:框架結合現有的組成部分,將無監督的預訓練和在線RL與數據擴充成一個單一高效的框架。
3、常規輕量設置:實施起來只需要一個機器人、一個GPU、兩個攝像頭、幾個演示,以及稀疏獎勵函數等等。
具體的實驗結果如何?
實驗結果
這項實驗採用像素觀察的方法執行了一系列任務。下圖的每一欄顯示了初始、中間、結果等三個狀態。只有當機器人完成任務時,才會獲得稀疏獎勵。
這個訓練算法的效率可謂很高了。具體完成時間如下圖表格所示,在30分鐘左右,它就可以讓機器人學習操作任務。而簡單的“夠”(Reach)動作,則只需要三分鐘。
實驗結果稱,它不需要很多的Demo,也不需要到大量的設備,首次完成任務的平均時間為11分鐘,並且可以在25分鐘內訓練出6個機械動作。
所以研究人員驕傲地說:
“據我們所知,FERM是第一個能在不到一小時的時間內,能通過像素點直接完成來自不同組、採用稀疏獎勵方法的機器操作任務。”
而根據相關報告,未來十年,製造業將需要460萬個崗位。許多製造商也都在轉向自動化生產,機械自動化將佔比越來越高。FERM這樣的高效訓練框架,可謂是製造業福音。
參考鏈接:
論文地址:
https://arxiv.org/abs/2012.07975
源代碼: