自主音訊機器人群可在混亂的房間中實現靜音對話
華盛頓大學的研究人員說,他們現在可以讓嘈雜房間的不同部分靜音,或者在混亂的環境中隔離一段對話,這要歸功於一群小型音訊機器人,它們可以自動定位,精確定位並追蹤多個移動聲源。
我們人類閉著眼睛也能找到聲音來源,這要歸功於我們耳朵提供的略微分佈的雙麥克風陣列和音訊屏蔽效果。但當音頻環境變得複雜時,情況就會變得非常混亂–這與我們喜歡尋找嘈雜、擁擠和高能量空間(如周日上午的咖啡館),然後試圖在其中進行對話的怪癖不符。
在這些較為混亂的音訊空間中,要想隔離單一音源並靜音其他音源,唯一的辦法就是部署更大的麥克風陣列,然後將所有音訊串流處理在一起,創建一個空間地圖,對每個聲音的位置進行三角測量,測量聲音在空氣中傳播並到達每個麥克風時的微小時間差。然後,您可以使用難以捉摸的深度學習演算法對所有音訊串流進行重新處理,為每個聲音來源建立獨立的音訊串流,並消除來自其他聲音來源的所有雜訊。
透過定位和追蹤房間中的多個聲音來源,機器人麥克風陣列可以隔離不同的音訊區域並使其靜音圖/華盛頓大學
這個想法本身並不新鮮,但華盛頓大學的研究人員現在對這個概念提出了新的看法,他們使用了一個由七個帶輪子的小麥克風機器人組成的蜂群,每個機器人都只有一塊松露巧克力大小,它們能從充電站自主部署,並在可用空間內創建一個自我最佳化的陣列。
這些機器人利用內建麥克風和揚聲器,透過聲納在桌子表面導航,躲避障礙物,並儘可能廣泛地分佈,以最大限度地擴大麥克風之間的時間差。不幸的是,這確實意味著它們必須一個一個地移動,但一旦到位,它們的表現就相當驚人了,正如您在下面的影片中看到的那樣。
那麼最終的目的又是什麼呢?研究團隊認為,像這樣的機器人陣列可以作為便攜式、自動部署、隔音麥克風陣列,用於會議室直播等,理論上比人類更好地分散自己的聲音。
團隊表示,它在雙向視訊通話中的作用不大,因為雖然它的工作效率很高,但目前處理每三秒的聲音方塊需要大約1.82 秒。延遲也意味著它無法在短時間內將對話夥伴的純淨音訊串流傳輸到嘈雜的咖啡館裡的耳機中–儘管隨著運算能力和速度的提高,這兩種應用都有可能實現。
當然,它也可以成為非常方便的監控工具,消除人群噪音的掩蔽效應,並記錄私人對話。有趣的是,華盛頓大學的研究團隊表示,它的用途可能恰恰相反。
這項研究的共同第一作者、博士生馬利克-伊塔尼(Malek Itani)說:”它有可能真正有利於隱私保護,超出目前智能揚聲器所允許的範圍。我可以說’不要錄下我桌子周圍的任何東西’,我們的系統就會在我周圍3 英尺(0.9 米)處產生一個氣泡。這個氣泡中的任何東西都不會被記錄下來。或者,如果有兩組人在旁邊講話,其中一組人正在進行私人對話,而另一組人正在錄音,那麼其中一組人的對話可以處於靜音區,並保持私密性。”
從充電站釋放後,機器人利用聲納將自己分佈在一個表面周圍,以實現最大的空間隔離
現實中,靜態分散式麥克風陣列可能會在智慧房間或智慧家庭設計中開始應用,它們可以輕鬆地將語音控制指令與不同區域隔離。例如,只聽沙發上的聲音就能控制電視,甚至在吵雜的場所從站在吧台前的人分辨出飲料訂單。
該論文在《自然-通訊》(Nature Communications)雜誌上公開發表。