哥倫比亞大學提出可阻止間諜麥克風監聽的神經語音偽裝AI算法
早在2013 年,就有報導稱FBI 有利用特殊的技術手段來監聽麥克風。幾週前,威斯康星大學麥迪遜分校又在一份調查報告中,揭示了靜音麥克風是如何在視頻會議期間被清楚收聽到的。雖然結果有點讓人感到驚訝,但其實耳機也可在特定情況下被當做麥克風來監聽。
資料圖(來自:University of Wisconsin-Madison)
出於對隱私安全的關注,我們已見到一些突破性的技術。比如得益於新開發的一種算法,哥倫比亞大學研究人員聲稱可部分解決這方面的問題。
據悉,新算法主要聚焦兩個方面。首先,它會將一個人的語音模糊和安靜到接近耳語可聽的水平,以避免被自動語音識別(ASR)AI 給破譯。
其次,新算法還可預測即將說出的單詞、並始終較ASR 領先一步,所以新方法又被稱作“預測性攻擊”(Predicitive Attacks)。
研究配圖- 1:“神經語音偽裝”可對ASR 造成乾擾
該校計算機科學助理教授Carl Vondrick 簡要解釋了該技術的工作原理:
在阻止麥克風惡意監聽這件事上,我們的算法有80% 的成效,同時也是測試平台上最快、最準確的算法。
即使我們對流氓麥克風一無所知—— 比如它的位置、甚至背後運行的計算機軟件—— 該方法依然能夠奏效。
本質上,我們可以通過無線的方式來偽裝一個人的聲音,將其隱藏在這些監聽系統之外、且不會對在室內會話的人們造成不便。
研究配圖- 2:預測攻擊演示
研究的主要作者、Vondrick 的博士生Mia Chiquier 進一步補充道:
我們的算法能夠通過預測一個人接下來會說什麼的特徵來跟上進度,給它足夠的時間來生成正確的耳語。
到目前為止,該方法已被證明適用於大多數英語詞彙。後續我們計劃將該算法推廣到覆蓋更多語種,最終讓耳語聽起來完全不可察覺。
研究配圖- 3:三個攻擊實例
通過與其它用於攻擊語音樣本的方法進行比較—— 包括統一噪聲、離線投影梯度下降(PGD)和在線PGD(實時)—— 可知該算法在預測未來0.5 秒的講述內容時表現最佳。
此外該算法針對標準ASR 及其強大的對手展開了實測,雖然不見得很快就能派上實際用場,但感興趣的朋友還是可以翻閱《實時神經語音偽裝》這項基礎研究的全文(PDF)。