Gmail的AI垃圾郵件檢測機製完成多年來最大防禦升級RETVec被引入用於識別特殊字符
Google安全部落格上的最新文章詳細介紹了Gmail 垃圾郵件過濾器的新升級,Google稱之為”近年來最大的防禦升級之一”。升級的形式是一個名為RETVec(彈性高效文字向量器)的新文字分類系統。Google表示,這有助於理解”對抗性文字操作”–即充滿特殊字元、表情符號、錯字和其他垃圾字元的電子郵件,這些字元以前人類可以辨認,但機器不容易理解。以前,充滿特殊字元的垃圾郵件很容易通過Gmail 的防禦系統。
如果你想了解”對抗性文字處理”是什麼樣子,下面的郵件就是我的垃圾郵件資料夾中的內容:
個人的經驗是,在今年上半年,這些郵件曾經是個大問題,我的收件匣裡常出現這樣的郵件。不過,這次RETVec 技術升級似乎確實起了作用,因為在過去幾個月裡,我完全沒有遇過這樣的郵件。
像這樣的郵件很難分類,因為任何垃圾郵件過濾器都可能會攔截一封寫著”恭喜您!您的中獎帳戶餘額為1,000 美元”,但這封郵件的實際內容並非如此。這裡的大部分字母都是”同音字”–透過深入研究Unicode 標準的無窮無盡的深度,你可以找到一些晦澀難懂的字符,它們看起來像是普通拉丁字母的一部分,但實際上卻不是。
例如,主題”Check_Your_Account”被奇怪地加粗,不是因為它有加粗的樣式,而是因為它使用了Unicode 字形,如”數學粗體大寫C”。這是一個數學符號,在人們看來恰好像字母”C”,但進行垃圾郵件過濾的機器人卻準確地將其視為一個數學符號,而不理解其英語含義。你越仔細看這樣的郵件,情況就越糟糕:”CONGRATULATIONS”中的”O”字符被一個0 取代,”Jackpot”中的下劃線字母非常奇怪,甚至在Unicode 搜索中都找不到,大量空格被換成了句號或底線。結果,垃圾郵件過濾器看到這些亂七八糟的郵件就繳械投降了。
Google 說,RETVec 是來拯救我們的:”RETVec 經過訓練,能夠抵禦字元級操作,包括插入、刪除、錯字、同音字、LEET 替代等。RETVec 模型是在新型字元編碼器的基礎上訓練而成的,該編碼器可對所有UTF-8 字元和單字進行高效編碼。因此,RETVec 無需查找表或固定詞彙量,即可在100 多種語言上運行。”
效率非常重要。其他使用”固定詞彙量”或同音字”查找表”的方法在運行時會耗費大量資源。試想一下,如果將”祝賀”的一個或多個字符換成數字、數學符號、西里爾字母、希伯來語或表情符號,那麼所有可能的拼寫和拼寫錯誤都會出現在一個列表中,而這個列表幾乎是無窮無盡的。Google表示,RETVec 的參數只有20 萬個,”而不是數百萬個”,因此,雖然Google的垃圾郵件過濾雲可能大到足以運行任何東西,但它卻小到甚至可以在本地設備上運行。RETVec 是開放原始碼的,Google希望它能讓世界擺脫這種不同編碼的同音字攻擊。
RETVec 的工作原理似乎與人類的閱讀方式很相似: 它是一個機器學習TensorFlow 模型,利用視覺”相似性”來識別單字的含義,而不是識別單字的實際字元內容。Google的”相似性”演示使用了相同的技術來識別貓的圖片,因此將其轉化為世界上最先進的光學字元辨識系統聽起來是可行的。
顯然,這種方法已經帶來了很大的改進,Google表示”用RETVec 代替Gmail 垃圾郵件分類器之前的文本向量器,使我們的垃圾郵件檢測率比基線提高了38%,誤報率降低了19.4%。此外,使用RETVec 還將模型的TPU 使用量降低了83%,使RETVec 的部署成為近年來最大的防禦升級之一。”
Google表示,”在過去的一年裡一直在內部測試RETVec,並已將其推廣到您的Gmail 帳戶。”