憑藉Google新算法機器人自學行走平均只需3.5小時
在機器人領域,讓機器人保持站立並進行平穩的運動一直是一個棘手的挑戰,因為這需要超高的專業知識和設計水平。儘管一些傳統的機器人能在人工控制的情況下完成站立和運動,但它們的活動範圍也充滿了各種局限性。
圖為Rainbow Dash 在鏤空門墊上運動
為了解決這個問題,Google 近日和佐治亞理工學院以及加州大學伯克利分校的研究人員聯合發表了一篇論文,詳細介紹了他們如何成功地構建了一個通過AI 以自學走路的機器人。他們給這只四足小機器人起了個可愛的代號“Rainbow Dash”。
根據世界紀錄,嬰兒從爬行到學會行走的最快速度是6 個月,而根據論文中的測試數據顯示,Rainbow Dash 平均只需要大約3.5 小時來學習向前、向後和左右轉彎等運動——在堅硬平坦的地面上,該機器人學習走路需要1.5 個小時,在由記憶海綿材質的床墊上大約需要5.5 個小時,在鏤空的地毯上大約需要4.5 個小時。
具體來說,該機器人使用深度強化學習,即結合了深度學習和強化學習兩種不同類型的AI 技術。通過深度學習,系統可以處理和評估來自其身處環境的原始輸入數據;通過強化學習,算法可以反複試驗,以學習如何執行任務,並根據完成的程度來獲得獎勵和懲罰。也就是說,通過上述的這種方式,機器人便可以在其不了解環境中實現自動控制策略。
在以往的此類實驗中,研究人員最初都會讓機器人通過模擬來學習真實世界的環境。在仿真環境中,機器人的虛擬體首先與虛擬環境進行交互,然後,算法接收這些虛擬數據,直到系統有能力對這些數據“應對自如”,一個搭載系統的物理形態的機器人才會被放置到現實環境中進行實驗。這種方法有助於避免在試錯過程中對機器人及其周圍環境造成損害。
不過,環境雖然容易建模,但通常耗時長,而且現實環境中充滿了各種意想不到的情況,因此,在模擬環境中訓練機器人的意義有限。畢竟,此類研究的最終目標恰恰是讓機器人為現實世界的場景做好準備。
Google 和佐治亞理工學院以及加州大學伯克利分校的研究人員並沒有“守舊”。在他們的實驗中,從一開始就在真實環境中對Rainbow Dash 進行訓練,這樣一來,機器人不僅能夠很好地適應自己所處的環境,也能夠更好地適應相似的環境。
儘管Rainbow Dash 能夠獨立運動,這並不代表研究人員可以對其“撒手不管”。在一個環境中學習行走的最開始,研究人員仍需要對Rainbow Dash 手動干預上百次。為了解決這個問題,研究人員限定了機器人運動的環境,讓其一次性進行多重動作訓練。
在Rainbow Dash 自學行走之後,研究人員可以通過連入控製手柄來操控機器人實現理想的運動軌跡,將機器人控制在設定的環境內。此外,機器人在識別到環境的邊界後,也會自動往回走。在特定的環境之外,機器人可能會重複摔倒導致機器損壞,那時候就需要另一個硬編碼算法來幫助機器人站起來。
Google 在該研究中的負責人Jan Tan 告訴媒體,這項研究花費了大約一年的時間才完成。他說道:
我們有興趣讓機器人能夠在各種複雜的現實世界環境中運動。不過,要設計出能夠靈活處理多樣性和復雜性的運動控制器十分困難。
接下來,研究人員希望他們的算法能適用於不同種類的機器人,或適用於多個機器人在同一環境中同時進行學習。研究人員相信,破解機器人的運動能力將是解鎖更多實用機器人的關鍵——人類用腿來走路,如果機器人不會使用腿,它們就不能在人類世界中行走。
然而,讓機器人在人類世界中行走是一個至關重要的課題,它們可以代替人類探索地球上不同的地形或未被人類探索過的地區,比如太空。但由於該機器人依賴於安裝在其上方的動作捕捉系統來確定位置,該裝置暫時還不能直接用於現實世界。