OpenAI的機械手“自學”解開三階魔方的技術
OpenAI是一家以人工智能和機器學習研究而聞名的公司,其周二展示了能解開三階魔方的機械手。這套名為Dactyl的機械手是通過使用稱為自動域隨機化(ADR)和強化學習的新技術進行訓練的。在過去的Dota 2中,Dactyl所採用的強化學習算法已經證明了它可以對抗人類對手。
但是,新技術ADR通過生成越來越難以訓練的Dactyl訓練場景來幫助教機械手解決古老的難題。自動域隨機化的方式如下:
ADR從單一的非隨機環境開始,在該環境中,神經網絡學習瞭如何解開三階魔方。隨著神經網絡在任務中變得更好並達到性能閾值,域隨機化的數量會自動增加。由於神經網絡現在必須學會將其推廣到更隨機的環境,因此這使任務更加艱鉅。神經網絡不斷學習,直到再次超過性能閾值,然後再進行更多隨機化,然後重複該過程。

團隊認為,ADR是一項重大進步,因為逐步困難的訓練模擬的建立“使我們擺脫了對真實世界的準確模型的束縛,並使在模擬中學習到的神經網絡的轉移能夠應用於真實世界。 ” 最終,在使神經網絡適應各種情況後,Dactyl能夠熟練地適應各種物理情況,包括手指被綁住,戴上橡膠手套等前景。
值得一提的是,雖然OpenAI去年展示了Dactyl旋轉魔方的能力,但是解開三階魔方所需的靈巧性和操縱水平不可小視。密西根大學的機器操縱專家Dmitry Berenson讚揚了這一壯舉:
“這是一個非常困難的問題。旋轉魔方的零件所需的操作實際上比旋轉魔方要困難得多。”
同時,麻省理工學院的機器人學家和教授Leslie Kaelbling說道:
“我有點驚訝。我此前沒想過它們能完成這類工作。”
OpenAI的研究人員認為,實驗的結果提供了有力的證據,表明將來可以使用相同的技術來構建可以適應各種條件的通用機器人。來自OpenAI的Marcin Andrychowicz設想:“我認為這種方法(強化學習)是廣泛採用機器人技術的方法。”

同時,有些懷疑論者並不完全相信增強學習是否是未來此類機器人的方法。Berenson在談到該主題時暗示了一種更傳統的方法:“到今天結束時,將會有一些學習過程-可能是強化學習。但是我認為那些過程實際上應該晚得多。”