卡耐基梅隆大學設計的機器人能“聽音識物”:準確率近八成
聲音裡包含了豐富的信息,例如,聽到“吱呀”的聲音就知道門開了,聽到“沙沙”的樹葉聲就知道起風了。依靠聽覺,人類可以更好地感知世界。但對於機器人來說,目前它們只能基於視覺和少量的觸覺進行操作。為了讓機器人未來具備更好的感知力,科學家們正在研究如何賦予機器人聽覺。
近日,卡內基梅隆大學(CMU)機器人研究所的研究人員對聲音和機器人動作之間的相互作用進行了大規模的研究,發現聲音可以幫助機器人區分物體,識別率能達到79.2%,還能識別使物體發出聲音的動作,以及預測物體的物理屬性。相關研究發表在《機器人技術:科學與系統》雜誌上。
在此之前,沒有任何算法,也沒有數據集可以幫助機器人建立對物體的理解,形成機器人聽覺。主要原因在於聲音的產生受到許多因素的相互影響。例如,機器人撞擊物體時發出的聲音取決於撞擊的力度、物體的結構、麥克風的位置等等。這使得從聲音中提取對機器人有用的信息變得十分困難。
項目的研究人員之一萊雷爾·平托(Lerrel Pinto)說:“在其他領域的許多初步工作表明,聲音可能有用,但尚不清楚它在機器人技術中有多有用。”
為了回答這一問題,研究人員首先創建了一個“傾斜機器人”(Tilt-Bot)。這個“傾斜機器人”由一個方形托盤、一個機械臂和固定裝置組成。托盤的四周有擋板,擋板上貼著聲波捕捉裝置,托盤上方安裝有一個攝像頭。
研究人員將60種常見物體(例如蘋果、鞋子和網球)分別放置在托盤上,隨著機械臂向隨機方向傾斜,物體會撞擊擋板並發出聲音。通過“傾斜機器人”,研究人員收集了60種物體的15000組交互記錄,每組交互記錄都包含聲音、動作和視覺數據。
用於創建數據集的Tilt-Bot(中),可用於收集視覺(左)、聲音(右下)和動作(右上)數據利用Tilt-Bot收集的數據,研究人員得出了關於聲音和機器人動作之間相互作用的三個發現。
首先,聲音可以幫助機器人區分物體。通過建立學習模型,機器人可以通過聲音區分60種不同的物體,而且識別準確率達到79.2%。
第二,聲音還可以幫助機器人用於識別使物體發出聲音的動作類型。通過建立模型,機器人只要一聽到某一物體的聲音,就能預測出使這個物體發出聲音的動作,而且產生的誤差比只用視覺信息進行識別的機器人低42%。
第三,僅通過一個物體發出的聲音,機器人就能判斷出這個物體的物理屬性,而且產生的誤差比僅用視覺進行判斷產生的誤差低了24%。也就是說,聽覺比視覺更能捕捉物體的物理性質。
平托認為,機器人能利用聲音提取信息並不奇怪,他說:“真正令人興奮的是,我們預期它會失敗時,它真的就失敗了。”例如,機器人無法通過聲音分辨紅色和綠色之間的差異。“但是,如果是不同的物體,例如一個磚塊和一個杯子,它可能會弄清楚。”
研究人員聲稱,這是關於聲音和動作之間相互作用的首次大規模研究。他們將把Tilt-Bot數據集公開,為將來在機器人聽覺領域的研究提供幫助,擴展聲音在機器人中的使用範圍。
平托補充說,我們的研究結果是如此令人鼓舞,以至於未來機器人將可能配備一根帶工具的拐杖,只要用拐杖輕輕敲擊,機器人就能識別出想要識別的物體。