兒童與AI如何探索新環境DeepMind做了項比較研究
探索未知環境是人類行為的關鍵特徵。與成年人相比,兒童進行探索的頻率更高。這樣的探索可以幫助兒童學習周圍環境,獲得更多的知識。這種能從抽象環境中綜合學習的能力,未來或許能讓人工智能(AI)受益。日前,全球最受矚目的人工智能公司DeepMind就聯合美國加州大學伯克利分校做了一項研究,比較兒童和AI了解世界的方式。他們的研究論文5月6日發表在預印本網站上。
論文稱,這項研究的目的是希望了解兒童探索學習的行為,從而縮小人工智能和人類在獲得新能力方面的鴻溝。比如,這有可能可以幫助機器人在拾取和包裝數百種不同類型的產品時,還能避免各種障礙。
從過往的兒童行為研究中,我們已經了解到學齡前兒童完全可以自主在玩耍的過程中習得玩具是如何工作的,例如根據顏色確定積木的作用,然後兒童可以總結理論推斷出新玩具或新積木的玩法。對於人工智能來說,它擁有近似的能力和適應性,但需要人為監督和乾預。
論文采用的方法結合了在DeepMind實驗室裡的實驗設置,其中包括針對AI的導航和難題解決任務。這些任務需要AI具備物理或空間導航技能。在實驗設置中,允許孩子通過自定義控制與DeepMind實驗室進行交互。這個控制器包括前進、後退、左移和右轉四個動作。
兒童與AI在探索迷宮中的比較
另一邊,在加州大學伯克利分校的實驗室中,研究人員則試圖確定兩件事:在未知環境,兒童的探索行為是否存在差異;以及與AI相比,兒童是否更容易適應一組特定的場景。
在一項測試中,孩子需要完成兩個迷宮,一個接一個,兩個迷宮佈局相同。孩子們在第一個迷宮中自由探索,但需要在第二個迷宮中找到橡皮糖。
研究人員表示,在“無目標狀態”的第一個迷宮中,孩子們的策略與AI領域裡的深度優先搜索策略(DFS)相似,會沿著未走過的路徑一直前進,直到達到死胡同,然後轉向來探索他們看到的最後一條路徑。而在第二個目標條件的迷宮中,兒童做出的選擇與DFS一致的時間為89.61%。相比同齡孩子,對環境探索更少的孩子花費的時間更長,平均需要95步,而探索更多的孩子則只需要66步就找到了橡皮糖。
團隊指出,這些行為與用於訓練的AI相反。AI的選擇通常都非常偶然,它們通常會偶然發現一個區域很有趣,然後鼓勵自己一直重新訪問該區域,直到自己認為這個區域變得不再有趣為止。研究發現,與小孩掉未來探索更感興趣相比,AI更喜歡追溯過去的行為。
研究中的另一項測試是告訴4-6歲的孩子分三個階段完成兩個迷宮。第一階段裡,孩子們可探索迷宮,其中包括有無目標探索,有目標且沒有立即獎勵探索以及有目標並有獎勵的密集探索。在第二階段,孩子們的任務是再次尋找目標項目,該目標項目與探索期間的位置相同。在最後階段,要求他們找到目標項目,但完成目標的最佳途徑受阻。
研究人員稱,初步數據表明,在獎勵密集的情況下,兒童探索區域的可能性較小。但是,缺乏探索性並不會傷害兒童在最後階段的表現。對於AI而言,情況並非如此,通常,豐厚的獎勵會使AI缺乏去探索的積極性並導致概括能力不佳。
“我們提出的方法可以幫助我們識別在哪些領域裡,人工智能和孩子採取了相似的行動,以及在哪些領域裡,他們沒有採取相似行動。這項研究僅是兒童和人工智能在探索方面的初始研究,在提出新的問題時,我們可以通過研究對兒童和AI探索新環境的方式,以及他們是如何探索的進行深入了解,從而縮小兩者之間的差距。”論文作者在論文裡稱。