瑜珈球上訓練出來的機器狗比大多數健身者更能靈活運用訓練資源
這隻四足機器人搖搖晃晃地走著,在一個健身球上努力保持平衡,這是一個有趣的實驗,但其核心是,它證明了像GPT-4 這樣的人工智慧可以訓練機器人執行複雜的實際任務,比我們人類更有效。
DrEureka是一個任何人都可以獲得的開源軟體包,用於使用大型語言模型(LLM)(如ChatGPT 4)訓練機器人執行現實世界中的任務。這是一個”模擬到現實”系統,也就是說,它在虛擬環境中使用模擬物理原理對機器人進行教學,然後再在現實空間中實施。
吉姆-範(Jim Fan)博士是DrEureka 的開發者之一,他部署的Unitree Go1 四足機器人一躍成為頭條新聞。這是一款”低成本”、支援良好的開源機器人–這很方便,因為即使有了人工智慧,機器人寵物仍然很容易摔傷。至於”低成本”,它在亞馬遜上的售價為5899 美元,評分為1 顆星…
DrEureka 中的”Dr”代表”領域隨機化”,即在模擬環境中隨機化摩擦、質量、阻尼、重心等變數。
只要在ChatGPT 等LLM 中輸入一些提示,人工智慧就能編寫程式碼,創建一個獎勵/懲罰系統,在虛擬空間中訓練機器人,其中0 = 失敗,高於0 則為勝利。得分越高越好。
它可以透過最小化和最大化球的彈跳力、運動強度、肢體自由度和阻尼等方面的失效點/爆發點來創建參數。作為一個LLM,它可以毫不費力地大量創建這些參數,供訓練系統同時運作。
每次模擬後,GPT 還可以反思虛擬機器人的表現,以及如何改進。如果超出或違反參數,例如電機過熱或試圖以超出其能力的方式銜接肢體,都將導致0 分…沒有人喜歡得零分,人工智慧也不例外。
提示LLM 編寫程式碼需要安全指令–否則,研究小組發現GPT 會努力追求最佳效能,會在沒有指導的情況下在模擬中”作弊”。這在模擬中沒有問題,但在現實生活中可能會導致電機過熱或肢體過度伸展,從而損壞機器人–研究人員稱這種現象為”退化行為”。
虛擬機器人自學成才的非自然行為的一個例子是,它發現自己可以更快地移動,方法是將臀部插入地面,用三隻腳拖著臀部在地板上竄來竄去。雖然這在模擬中是一種優勢,但當機器人在現實世界中嘗試時就感到尷尬了。
因此,研究人員指示GPT 要格外小心,因為機器人將在真實世界中接受測試–為此,GPT 創建了安全功能,例如平滑動作、軀幹方向、軀幹高度,並確保機器人的馬達不會扭矩過大。如果機器人作弊,違反了這些參數,其獎勵函數就會降低分數。安全功能可以減少退化和不自然的行為,例如不必要的骨盆推力。
那麼它的表現如何呢?比我們強。 DrEureka 在訓練機器人”pooch”的過程中擊敗了人類,在實際的混合地形中,它的前進速度和行進距離分別提高了34% 和20%。
DrEureka 基於GPT 的訓練系統在現實世界中輕鬆擊敗人類訓練的機器人
如何做到?研究人員認為,這與教學方式有關。人類傾向於課程式的教學環境–把任務分解成一個個小步驟,並試圖孤立地解釋它們,而GPT 能夠有效地一次性傳授所有知識。這是我們根本無法做到的。
DrEureka 是同類產品中的首創。它能夠從模擬世界”零距離”進入現實世界。想像一下,在對周遭世界幾乎一無所知的情況下,你被推出巢穴,只能自己摸索。這就是”零鏡頭”。
DrEureka 的創造者認為,如果他們能提供GPT 真實世界的回饋,就能進一步改進模擬到現實的訓練。目前,所有的模擬訓練都是利用機器人自身本體感覺系統的資料完成的,但如果GPT 能夠透過真實世界的視訊畫面看到出錯的地方,而不是僅僅從機器人的日誌中讀取執行失敗的訊息,那麼它就能更有效地完善自己的指令。
人類平均需要一年半的時間學會走路,大概只有百分之一的人類能在瑜珈球上學會走路。
您可以在這裡觀看一段未經剪輯的4 分33 秒視頻,視頻中機器人狗狗輕鬆在瑜伽球上散步,且沒有停下來在消防栓上撒尿: