OpenAI利用7萬小時的遊戲視頻成功訓練Minecraft建造機器人
Minecraft可能聽起來不像是一個支持高級人工智能研究的重要工具。畢竟,教一台機器玩一個十多年前發布的沙盒遊戲哪有如此重要?但基於OpenAI最近的努力,一個訓練有素的Minecraft機器人與人工智能的進步比大多數人可能意識到的更有關係。
OpenAI一直專注於造福人類的人工智能(AI)和機器學習的進步。最近,該公司利用超過7萬小時的遊戲視頻,成功地訓練了一個機器人玩Minecraft。這一成就遠遠超出了機器人玩遊戲的範疇,它標誌著使用觀察和模仿的先進機器學習向前邁出了一大步。
OpenAI的機器人是模仿學習(也稱為”監督學習”)的一個優秀範例。與強化學習不同的是,學習代理在通過試驗和錯誤達到目標後會得到獎勵,而模仿學習則是通過觀察人類完成特定任務來訓練神經網絡。在這種情況下,OpenAI利用現有的遊戲視頻和教程,教他們的機器人執行複雜的遊戲序列,這需要典型的玩家花大約24000個單獨的動作來實現。
模仿學習需要對視頻輸入進行標記,以提供動作和觀察結果的背景。不幸的是,這種方法可能是高度勞動密集型的,導致可用的數據集有限。這種可用數據集的短缺最終限制了代理人通過觀察學習的能力。
OpenAI的研究團隊沒有通過廣泛的手工數據標記工作,而是使用了一種特定的方法,即視頻預訓練(VPT),以大大擴展可用的標記視頻的數量。研究人員最初捕獲了2000個小時的有註釋的Minecraft遊戲,並使用它來訓練一個代理將特定的行動與屏幕上的特定結果聯繫起來。然後,所產生的模型被用來為網上現成的70000小時之前沒有標籤的Minecraft內容自動生成標籤,為Minecraft機器人提供了一個更大的數據集來審查和模仿。
整個練習證明了可用視頻庫的潛在價值,如YouTube,作為人工智能訓練資源。機器學習科學家可以利用現有的和適當標記的視頻來訓練人工智能進行特定的任務,從簡單的網絡導航到幫助用戶滿足現實生活中的物理需求。