2023年12月4日17:08:19评论4 views字数 908阅读3分1秒阅读模式

Gmail应用RETVec可提高对垃圾邮件分类的正确性

Gmail、YouTube、Google Play等应用系统都依赖文本分类模型来识别有害内容，包括钓鱼攻击、不适当的评论内容和垃圾邮件。机器学习模型很难对此类文本进行精准分类，因此攻击者可以使用对抗文本操纵来主动绕过分类器。比如添加不可见的字符、关键字填充等来绕过防护。

为使文本分类器更加高效，谷歌研究人员开发一种新型多语言的文本向量化器——RETVec，以帮助模型实现最佳的分类性能和减少计算成本。此外，研究人员还将RETVec应用于Gmail实际场景。

使用RETVec增强Gmail垃圾邮件分类器

Gmail应用RETVec可提高对垃圾邮件分类的正确性

图1 基于RETVec的Gmail垃圾邮件过滤器改进

近年来，谷歌将RETVec广泛应用于谷歌的安全和反滥用应用中以评估其有用性和有效性。用RETVec替换Gmail垃圾邮件分类器之前使用的文本向量化器可以将垃圾邮件检测准确率在基准上改进38%，将假阳性减少19.4%。此外，使用RETVec将模型的TPU使用减少83%。

RETVec的优势

RETVec提出一种新型架构，融合了高度紧凑的字符编码器、增强驱动的训练和度量学习(Metric Learning)。RETVec可以应用于不同语言和所有UTF-8字符，无需进行文本处理，使得其适用于设备级、网页级和大型文本分类部署。使用RETVec训练的模型具有更快的推理速度。

模型更小因此计算成本和延迟更低，这对大规模应用和设备级模型至关重要。

Gmail应用RETVec可提高对垃圾邮件分类的正确性

图2 RETVec架构图

使用RETVec训练的模型还可以无缝转化为适用于移动和边缘设备的TFLite，对于web应用模型部署，研究人员还提供了TensorflowJS层的实现。

Gmail应用RETVec可提高对垃圾邮件分类的正确性

图3 使用不同向量化器训练的文本分类模型

RETVec是一种新型的开源文本向量化器，用户可以构建更加弹性和高效的服务器端和设备级文本分类器，Gmail垃圾邮件过滤器使用该模型可以帮助Gmail识别和过滤恶意邮件内容。

参考及来源：https://security.googleblog.com/2023/11/improving-text-classification.html

Gmail应用RETVec可提高对垃圾邮件分类的正确性

原文始发于微信公众号（嘶吼专业版）：Gmail应用RETVec可提高对垃圾邮件分类的正确性