站長之家(ChinaZ.com) 12 月 5 日消息:Google 在其安全博客上宣布,Gmail 的垃圾郵件過濾功能經(jīng)歷了近年來最大規(guī)模的升級。這一升級主要體現(xiàn)在一種名為 RETVec(Resilient & Efficient Text Vectorizer,彈性高效文本向量化器)的新文本分類系統(tǒng)上。
Google 表示,RETVec 能有效識別并處理「對抗性文本操縱」,這類郵件通常包含特殊字符、表情符號、拼寫錯誤和其他雜亂字符,過去這些內(nèi)容對人類而言易于理解,但機(jī)器難以辨識。
此前,包含大量特殊字符的垃圾郵件往往能輕易繞過 Gmail 的防御。但隨著 RETVec 技術(shù)的升級,用戶反映表示近幾個月這類郵件不再是問題。
RETVec 的獨特之處在于,它不僅能夠處理像「恭喜!您的彩票賬戶中有 1000 美元余額」這樣的直接的垃圾郵件,還能識別出更為復(fù)雜的「對抗性文本操縱」。例如,郵件主題「??????????_????????_??????????????」之所以看起來加粗,是因為它使用了類似「數(shù)學(xué)粗體大寫 C」這樣的 Unicode 字符。這些字符雖然看似普通拉丁字母,但實際上并非如此,使得傳統(tǒng)垃圾郵件過濾器難以識別。
Google 表示,RETVec 的高效性體現(xiàn)在其對字符級操縱的彈性,包括字符插入、刪除、拼寫錯誤、同形異義字、LEET 替代等。RETVec 模型基于一種能夠高效編碼所有 UTF-8 字符和單詞的新型字符編碼器。因此,RETVec 能夠立即適用于 100 多種語言,無需查找表或固定的詞匯量。
Google 強(qiáng)調(diào),與使用固定詞匯量或同形異義字查找表的傳統(tǒng)方法相比,RETVec 的資源利用率大大降低。此外,RETVec 的開源特性使其有望廣泛應(yīng)用于世界各地,消除同形異義字攻擊的威脅。
RETVec 采用類似于人類閱讀的方式,通過機(jī)器學(xué)習(xí) TensorFlow 模型識別單詞的視覺「相似性」,而非其實際字符內(nèi)容。Google 的測試表明,使用 RETVec 替換 Gmail 垃圾郵件分類器原有的文本向量化器,使得垃圾郵件檢測率提高了 38%,誤報率降低了 19.4%。同時,RETVec 的部署使模型的 TPU 使用率降低了 83%,使其成為近年來最大規(guī)模的防御升級之一。
據(jù) Google 透露,RETVec 已在內(nèi)部測試了一年時間,并已經(jīng)部署到用戶的 Gmail 賬戶中。
(舉報)