AI新突破「HuGE」:在機器人訓練中使用眾包回饋讓人類引導其探索
由麻省理工學院、哈佛大學和華盛頓大學的研究人員開發的一種新型強化學習方法HuGE,利用眾包反饋來高效地教授人工智慧代理複雜的任務,在模擬和實際應用中都顯示出良好的效果。
人類引導探索(Human Guided Exploration,HuGE)使人工智慧代理能夠在人類的幫助下快速學習,即使人類犯了錯誤。
為了教導人工智慧代理一項新任務,例如如何打開廚櫃,研究人員通常會使用強化學習(reinforcement learning)–一種試錯過程,在這個過程中,如果代理採取的行動使其更接近目標,就會得到獎勵。
在許多情況下,人類專家必須精心設計一個獎勵函數,這是一種激勵機制,可以激發代理人進行探索。當代理人探索並嘗試不同的行動時,人類專家必須反覆更新獎勵函數。這可能會耗費大量時間,效率低下,而且難以擴大規模,尤其是當任務複雜且涉及許多步驟時。
麻省理工學院、哈佛大學和華盛頓大學的研究人員開發了一種新的密集學習方法,它不依賴專家設計的獎勵函數。相反,它利用從許多非專業用戶收集到的眾包回饋,來指導代理商學習如何達到目標。
雖然其他一些方法也試圖利用非專家回饋,但這種新方法能讓人工智慧代理學習得更快,儘管從用戶收集的數據往往充滿錯誤。這些嘈雜的數據可能會導致其他方法失敗。
此外,這種新方法允許非同步收集回饋,因此世界各地的非專業用戶都能為人工智慧代理的教學做出貢獻。
“HuGE”: 新穎的方法
“如今,設計機器人代理最耗時、最具挑戰性的部分之一就是設計獎勵功能。如今,獎勵函數是由專家研究人員設計的–如果我們想教機器人完成許多不同的任務,這種模式是無法擴展的。」麻省理工學院電子工程與電腦科學系(EECS)助理教授、麻省理工學院電腦科學與人工智慧實驗室(CSAIL)Improbable AI實驗室負責人普爾基特-阿格拉瓦( Pulkit Agrawal)說:”我們的工作提出了一種透過眾包獎勵函數設計和讓非專家提供有用反饋來擴展機器人學習的方法。”
未來,這種方法可以幫助機器人快速學會在使用者家中執行特定任務,而主人無需向機器人展示每項任務的實體範例。機器人可以在非專業人員的眾包回饋指導下自行探索。
“在我們的方法中,獎勵功能引導代理探索什麼,而不是告訴它應該做什麼才能完成任務。因此,即使人類的監督有些不準確和嘈雜,代理仍然能夠進行探索,這有助於它更好地學習,”第一作者、Improbable AI 實驗室研究助理馬塞爾-托爾內(Marcel Torne ’23)解釋。
與托爾內共同完成論文的還有他的麻省理工學院導師阿格拉沃爾、資深作者、華盛頓大學助理教授阿比舍克-古普塔(Abhishek Gupta)以及華盛頓大學和麻省理工學院的其他研究人員。這項研究將在下個月舉行的神經資訊處理系統會議上發表。
回饋機制與學習過程
為強化學習收集使用者回饋的一種方法是,向使用者展示兩張代理商達到的狀態照片,然後詢問使用者哪種狀態更接近目標。例如,機器人的目標可能是打開一個廚房櫥櫃。其中一張照片可能顯示機器人打開了櫥櫃,而第二張照片可能顯示機器人打開了微波爐。使用者會選擇”更好”狀態的照片。
先前的一些方法試圖利用這種眾包的二元回饋來優化獎勵函數,讓機器人利用獎勵函數來學習任務。然而,由於非專家很可能會犯錯,獎勵函數可能會變得非常嘈雜,因此代理可能會陷入困境,永遠無法達到目標。
“基本上,代理會把獎勵函數看得太重。它會試圖完美地匹配獎勵函數。因此,我們不直接對獎勵函數進行優化,而是用它來告訴機器人應該探索哪些區域,」托恩說。
他和他的合作者將這個過程分解成兩個獨立的部分,每個部分都由各自的演算法指導。他們將新的強化學習方法稱為HuGE(人類引導探索)。
一方面,目標選擇器演算法會根據眾包的人類回饋不斷更新。這些回饋不是作為獎勵函數,而是用來引導代理的探索。從某種意義上說,非專業用戶投放的麵包屑會逐步引導代理商朝著目標前進。
另一方面,代理在目標選擇器的指導下,以自我監督的方式進行探索。它收集自己嘗試過的動作的圖像或視頻,然後發送給人類,用於更新目標選擇器。
這就縮小了代理的探索範圍,將其引向更有希望、更接近目標的區域。但是,如果沒有回饋,或者回饋需要一段時間才能到達,那麼代理商就會繼續自學,儘管速度會慢一些。這樣,就可以不頻繁地、非同步地收集回饋資訊。
“探索環路可以自主地繼續前進,因為它只是去探索和學習新的東西。當你獲得更好的信號時,它就會以更具體的方式進行探索,然後就可以讓它們按照自己的節奏轉動。”
由於回饋只是溫和地引導代理人的行為,即使使用者提供了錯誤的答案,它最終也能學會完成任務。
更快的學習
研究人員在一些模擬任務和實際任務中測試了這種方法。在模擬任務中,他們使用HuGE 有效地學習了具有較長操作序列的任務,例如按照特定順序堆疊積木或在大型迷宮中導航。
在真實世界的測試中,他們利用HuGE訓練機械手臂繪製字母”U”,以及取放物品。在這些測試中,他們從橫跨三大洲13 個不同國家的109 位非專家用戶那裡獲得了眾包資料。
在實際測試中,研究人員利用HuGE 訓練機械手臂拾取和放置物體以及畫出字母”U”。他們從橫跨三大洲13 個不同國家的109 位非專家用戶那裡獲得了眾包數據。圖片來源:研究人員提供
在真實世界和模擬實驗中,HuGE 比其他方法更快地幫助機器人學會實現目標。
研究人員還發現,與研究人員製作和標註的合成數據相比,從非專家那裡的眾包數據性能更好。對於非專業用戶來說,標註30 張圖片或影片所需的時間不到兩分鐘。
托爾內補充說:”這使得我們很有希望擴大這種方法的應用範圍。”
在最近舉行的機器人學習大會上,研究人員發表了一篇相關論文,他們對HuGE 進行了改進,使人工智慧代理能夠學會執行任務,然後自主重置環境繼續學習。例如,如果代理學會了打開櫥櫃,該方法也會引導代理關閉櫥櫃。
他說:「現在,我們可以讓它完全自主地學習,而不需要人工重置。」研究人員也強調,在這種學習方法和其他學習方法中,確保人工智慧代理與人類價值觀保持一致至關重要。
未來,他們希望繼續改進HuGE,使人工智慧代理能夠從其他形式的交流中學習,如自然語言和與機器人的身體互動。他們也有興趣將這種方法用於同時教授多個代理。