Gmail的AI垃圾郵件檢測機製完成多年來最大防禦升級RETVec被引入用於識別特殊字符

2023-12-05 Comments 0 Comment

Google安全部落格上的最新文章詳細介紹了Gmail 垃圾郵件過濾器的新升級，Google稱之為”近年來最大的防禦升級之一”。升級的形式是一個名為RETVec（彈性高效文字向量器）的新文字分類系統。Google表示，這有助於理解”對抗性文字操作”–即充滿特殊字元、表情符號、錯字和其他垃圾字元的電子郵件，這些字元以前人類可以辨認，但機器不容易理解。以前，充滿特殊字元的垃圾郵件很容易通過Gmail 的防禦系統。

如果你想了解”對抗性文字處理”是什麼樣子，下面的郵件就是我的垃圾郵件資料夾中的內容：

個人的經驗是，在今年上半年，這些郵件曾經是個大問題，我的收件匣裡常出現這樣的郵件。不過，這次RETVec 技術升級似乎確實起了作用，因為在過去幾個月裡，我完全沒有遇過這樣的郵件。

像這樣的郵件很難分類，因為任何垃圾郵件過濾器都可能會攔截一封寫著”恭喜您！您的中獎帳戶餘額為1,000 美元”，但這封郵件的實際內容並非如此。這裡的大部分字母都是”同音字”–透過深入研究Unicode 標準的無窮無盡的深度，你可以找到一些晦澀難懂的字符，它們看起來像是普通拉丁字母的一部分，但實際上卻不是。

例如，主題”Check_Your_Account”被奇怪地加粗，不是因為它有加粗的樣式，而是因為它使用了Unicode 字形，如”數學粗體大寫C”。這是一個數學符號，在人們看來恰好像字母”C”，但進行垃圾郵件過濾的機器人卻準確地將其視為一個數學符號，而不理解其英語含義。你越仔細看這樣的郵件，情況就越糟糕：”CONGRATULATIONS”中的”O”字符被一個0 取代，”Jackpot”中的下劃線字母非常奇怪，甚至在Unicode 搜索中都找不到，大量空格被換成了句號或底線。結果，垃圾郵件過濾器看到這些亂七八糟的郵件就繳械投降了。

Google 說，RETVec 是來拯救我們的：”RETVec 經過訓練，能夠抵禦字元級操作，包括插入、刪除、錯字、同音字、LEET 替代等。RETVec 模型是在新型字元編碼器的基礎上訓練而成的，該編碼器可對所有UTF-8 字元和單字進行高效編碼。因此，RETVec 無需查找表或固定詞彙量，即可在100 多種語言上運行。”

效率非常重要。其他使用”固定詞彙量”或同音字”查找表”的方法在運行時會耗費大量資源。試想一下，如果將”祝賀”的一個或多個字符換成數字、數學符號、西里爾字母、希伯來語或表情符號，那麼所有可能的拼寫和拼寫錯誤都會出現在一個列表中，而這個列表幾乎是無窮無盡的。Google表示，RETVec 的參數只有20 萬個，”而不是數百萬個”，因此，雖然Google的垃圾郵件過濾雲可能大到足以運行任何東西，但它卻小到甚至可以在本地設備上運行。RETVec 是開放原始碼的，Google希望它能讓世界擺脫這種不同編碼的同音字攻擊。

RETVec 的工作原理似乎與人類的閱讀方式很相似：它是一個機器學習TensorFlow 模型，利用視覺”相似性”來識別單字的含義，而不是識別單字的實際字元內容。Google的”相似性”演示使用了相同的技術來識別貓的圖片，因此將其轉化為世界上最先進的光學字元辨識系統聽起來是可行的。

顯然，這種方法已經帶來了很大的改進，Google表示”用RETVec 代替Gmail 垃圾郵件分類器之前的文本向量器，使我們的垃圾郵件檢測率比基線提高了38%，誤報率降低了19.4%。此外，使用RETVec 還將模型的TPU 使用量降低了83%，使RETVec 的部署成為近年來最大的防禦升級之一。”

Google表示，”在過去的一年裡一直在內部測試RETVec，並已將其推廣到您的Gmail 帳戶。”

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

Gmail的AI垃圾郵件檢測機製完成多年來最大防禦升級RETVec被引入用於識別特殊字符

2023-12-05 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆