Gmail中部署的新向量演算法將大幅提高垃圾和釣魚郵件的辨識率
谷歌最近在Google Colab 上開源了一個名為RETVec 的新型多語言文字向量化器,這個向量化器已經部署在Gmail 上,用來提升垃圾郵件和釣魚郵件的辨識率,同時降低誤報率。Google稱RETVec 經過訓練能夠抵禦字元級操作,包括插入、刪除、拼字錯誤、同形文字、LEET 替換等,這個模型是在新型字元編碼器之上進行訓練的,該編碼器可以有效針對所有UTF-8字符和單字進行編碼。 為什麼要訓練這樣一種模型呢?因為Gmail 每天收發的郵件都在千萬級別,如果包含各類垃圾郵件的話可能有幾十億,而垃圾郵件製造者會對Google的檢測系統進行規避,例如使用同形字。RETVec 支援100 多種語言,旨在幫助建立更具彈性和高效的服務端和裝置上的文字分類,同時也更加強大和高效。根據Google自己的統計,將RETVec 應用到Gmail 後,垃圾郵件偵測率比基準提高38%、誤報率降低19.4%、張量處理單元(TPU) 使用率降低了83%。Google工程師表示由於其緊湊的表示形式,使用RETVec 訓練的模型表現出更快的推理速度,較小的模型可以降低計算成本並減少延遲,這對於大規模系統和設備上的模型至關重要。向量化是NLP 即自然語言處理中的一種方法,用於將詞彙中的單字或短語映射到相應的數字表達,以便執行進一步分析,例如情緒分析、文本分類和命名實體識別等。