新型聲學攻擊從按鍵中竊取數據的準確率高達95%
一個來自英國大學的研究團隊訓練出了一個深度學習模型,它可以從使用麥克風記錄的鍵盤擊鍵中竊取數據,準確率高達95%。當使用Zoom 訓練聲音分類算法時,預測準確率下降到了93%,這仍然是一個危險的高水平,創下了該媒介的最高紀錄。

這種攻擊會嚴重影響目標的數據安全,因為它可能將人們的密碼、討論、信息或其他敏感信息洩露給惡意第三方。
此外,與其他需要特殊條件並受數據傳輸速率和距離限制的側信道攻擊不同,由於大量麥克風設備可以實現高質量音頻捕獲,聲學攻擊變得簡單得多。
這一點再加上機器學習的快速發展,使得基於聲音的側信道攻擊變得可行,而且比以前預想的要危險得多。
監聽按鍵
攻擊的第一步是記錄目標鍵盤上的按鍵操作,因為這些數據是訓練預測算法所必需的。這可以通過附近的麥克風或目標手機來實現,因為目標手機可能已經感染了可以訪問其麥克風的惡意軟件。
另外,還可以通過Zoom 通話記錄鍵盤輸入,在Zoom 通話中,一名不法會議參與者會將目標輸入的信息與他們的錄音進行關聯。
研究人員通過按壓現代MacBook Pro 上的36 個按鍵,每個按鍵按壓25 次並記錄每次按壓產生的聲音來收集訓練數據。

按鍵音頻採樣(arxiv.org)
然後,他們從錄音中製作出波形圖和頻譜圖,直觀顯示每個按鍵的可識別差異,並執行特定的數據處理步驟,以增強可用於識別按鍵的信號。

生成的頻譜圖(arxiv.org)
頻譜圖圖像用於訓練圖像分類器”CoAtNet”,在此過程中需要對歷時、學習率和數據分割參數進行一些試驗,直到獲得最佳預測準確性結果。

選擇用於訓練CoAtNet 的參數(arxiv.org)
在實驗中,研究人員使用了同一台筆記本電腦(過去兩年所有蘋果筆記本電腦都使用該鍵盤)、距離目標17 厘米的iPhone 13 mini 和Zoom。

測試裝置(arxiv.org)
CoANet 分類器對智能手機錄音的準確率達到95%,對通過Zoom 捕捉到的錄音的準確率達到93%。Skype 的準確率較低,但也達到了91.7%。

電話錄音按鍵的混淆矩陣(arxiv.org)
可能的緩解措施
對於擔心聲學側信道攻擊的用戶,論文建議他們可以嘗試改變打字風格或使用隨機密碼。
其他潛在的防禦措施包括使用軟件重現按鍵聲音、白噪聲或基於軟件的按鍵音頻過濾器。
該攻擊模型即使對非常安靜的鍵盤也非常有效,因此在機械鍵盤上添加聲音阻尼器或改用薄膜鍵盤可能無濟於事。
最後,在可行的情況下採用生物識別身份驗證和利用密碼管理器來避免手動輸入敏感信息,也是一種緩解因素。