Facebook:不會“犯錯”的機器人不是“聰明”的機器人
在人們意識當中,機器人按照開發者的意願而做出指定的動作似乎是一件理所應當的事,而且,機器人完成任務還要做到精準、迅速。然而,Facbook的研究人員卻不走尋常路,他們有意讓機器人“犯錯誤”,這到底是為什麼呢?讓我們一起來看看吧。
“明知故犯”是“智”也
在Facebook 位於矽谷的新實驗室裡,有一個叫作Sawyer 的機器人(來自已經倒閉的Rethink Robotics 公司),它紅黑相間的手臂揮舞著,試圖完成研究人員交給它的任務。
按照指令,Sawyer 的手臂應該移動到右邊一處固定位置,然而,Sawyer 把手臂抬高,然後偏離軌道,錯開了指定位置,重新回到了原點;研究人員只好將Sawyer 重置,讓它繼續完成之前的任務。這一次,Sawyer 的手臂確實往右移了,但就在非常接近指定位置的時候,它再一次偏離了運動軌道,回到了起始位置。兩次任務都失敗了。
或許有人會覺得Sawyer 的“頑劣”行為令人抓狂。但就像兔子為了躲避獵鷹而迂迴前進一樣,Sawyer 看似笨拙的行為實際上是一種特殊的聰明。
Facebook 認為,無論是對於機器人的開發,還是AI 的開發來說,這種聰明都至關重要。
強化學習讓機器人更“聰明”
一般來說,開發者會編程機器人,讓他們通過這些設定好的指令來執行動作,不過從某種程度上來說,這種方式有點死板。
而我們人類在學習上則要聰明得多。因為,即使是嬰兒也明白,物體從視野中消失並不代表從世界上消失;玩具球可以滾來滾去,沙發卻不行;長大後,人們能夠學習駕駛,而不是撞車。
這一切都要歸功於人類大腦裡建立起來的世界模型。
Facebook 首席AI 科學家Yann LeCun 表示:
如果我們在懸崖邊開車,方向盤只要往右轉,汽車就會掉下去,所以,我們絕不會這樣做。我們大腦裡的世界模型會阻止我們自己做傻事。
Facebook 也在嘗試為機器提供這種模式,Yann LeCun 補充道說,建立世界模型的系統是AI 取得重大進展的下一個挑戰。
實際上,Facebook 並不是第一個嘗試讓機器人學會自我移動的團隊。
上圖為Brett 機器人及其開發者 Pieter Abbeel
在加州大學伯克利分校,研究人員使用了一種名為強化學習(reinforcement learning)的技術,讓雙臂機器人Brett 把方形釘子塞進一個方形洞裡。
在此過程中,研究人員會讓Brett 嘗試許許多多隨機的動作:如果Brett 更接近目標,系統就會給它“獎勵”;如果Brett 搞砸了,系統會給它“記過”。
這些記錄,Brett 都會保存下來,然後經過多次迭代,它會越來越精準地找到方洞,並把釘子放進去。
創新的自我監督學習
而Facebook 的嘗試有點不同,Facebook AI 研究科學家Franziska Meier 表示:
我們想嘗試的是給機器人灌輸好奇心的概念。
人類就是通過好奇心來認識世界的,比如,孩子們想知道猛拽貓尾巴會發生什麼,所以他們會去做這種嘗試。因此,Brett 是通過一點一點地靠近目標,來改進自己的動作,而Facebook 的Sawyer 則是靠近目標,然後故意偏離軌道。
Facebook 研究人員旨在讓Sawyer 自由地嘗試非最佳動作,而不是獎勵它不斷取得的成功,即使這在當時看起來並不理性。Meier 說:
雖然Sawyer 沒有完成任務,但它給了我們更多的數據,我們通過這種方式獲得的數據比傳統的方式要多。
這個概念被稱為自我監督學習——機器人嘗試新行為並更新軟件模型,從而幫助它預測自己的行為後果。
上圖為Facebook 所說的“自我監督學習”的算法模型
這樣做的目的是讓機器能夠更加靈活地去完成任務,或者說,更容易適應動態的人類環境。
比如,機器人要將架子上的杯子放到旁邊的架子,最好的方法是將杯子直接平移,然而兩個架子之間有隔板,這就需要機器人反複試驗、反复犯錯,直到它探索出更好的解決方案。
正如奧斯陸大學的機器人專家Tonnes Nygaard 所說的那樣:
如果我們一直執著於一個解決方案,我們可能會走進死胡同;我們更應該專注於探索更多新的解決方案。
模擬與現實之間的差距
一些研究人員通過模擬來教機器人完成任務——建立一個數字世界,再讓其中的動畫對象通過“犯錯”的方式來完成任務。這種方法相對較快,因為當數字“機器”不受現實世界物理定律的約束,它們迭代的速度要快得多。
不過,雖然模擬更高效,但它並不能完美地反映真實世界,模擬動態人類環境的複雜性。
這就導致,機器人在模擬環境中能夠完美匹配的理論,在現實世界中卻不適用。在現實世界中做任何事情都可能更慢、更費力,但好處是,機器人能獲得的數據更純粹。
Facebook的人工智能研究科學家Roberto Calandra 表示:
如果它在現實世界中行得通,那它就真的行得通。
畢竟,機器人在現實世界中要面對各種意想不到的麻煩,程序員不可能對每一個都預先進行編碼。
AI 和機器人相得益彰
上圖是Facebook 的六足機器人
從某種程度上來說,Facebook 的項目是AI 和機器人的偉大融合。
雖然谷歌和亞馬遜和Facebook 等科技巨頭已經大大推動了AI 的發展,比如讓機器進行圖像識別,不過這個任務仍基於人們事先給圖片貼好標籤。不得不承認,機器還是不夠聰明。
隨著AI 研究人員開始使用機器人作為平台來改進軟件算法,這種情況開始發生變化。
例如,Facebook 教機器人獨立完成一系列任務,這反過來可能會對開發AI 助手有所啟發,讓它們能夠更好地為用戶服務。LeCun 說道:
如果機器人解決了一個問題,同理,它也能在另一種情況下解決這個問題。
簡而言之就是,AI 正在讓機器人變得更聰明,而機器人也在幫助推進AI 的發展。
不過,Facebook 表示,目前,公司的這項研究並沒有連接到特定的產品。不過,LeCun 說:
我們認為,機器人將在遠程呈現中發揮重要作用。畢竟,Facebook 擁有Portal 和Oculus VR 系統。