编辑 | 刘梦迪
在2023年的USENIX Security会议上,来自浙江大学的Chong Fu等人针对这一问题提出了一种名为“FREEEAGLE”的无数据后门检测方法。该方法首创性地不依赖任何干净或有触发器的样本,能够有效检测出深度神经网络中的复杂后门攻击。FREEEAGLE通过分析神经网络模型的分类器部分行为,检测是否存在特定的类别使模型输出异常,从而识别和防御后门攻击。
这一突破性的研究不仅提升了模型共享平台的安全性,也为后门攻击的防御提供了新的技术路径。
与现有方法相比,FREEEAGLE方法的独特之处在于它完全不需要依赖任何额外的数据输入。这种方法利用的是模型本身的信息,通过分析模型的决策边界来识别是否有异常的类别操纵行为。FREEEAGLE特别关注于模型的分类器部分,尤其是在没有任何干净或带有触发器的样本情况下,能够识别那些特别设计来触发后门行为的输入。
FREEEAGLE方法在所有测试场景中均展示出了优异的检测性能。特别是在没有任何干净或有触发器样本的情况下,FREEEAGLE不仅能够有效检测出类别无关(class-agnostic)和类别特定(class-specific)的后门攻击,还能够识别出使用复杂触发器的攻击,这些触发器可能是在图像的语义层面进行设计的。例如,在CIFAR-10数据集上,针对使用像素级触发器的攻击,FREEEAGLE的检测正确率(True Positive Rate, TPR)达到了98%,而假阳性率(False Positive Rate, FPR)保持在非常低的水平,仅为0.03%。
此外,文章还将FREEEAGLE与现有的一些主流后门检测方法,如Neural Cleanse和STRIP等进行对比。结果表明,FREEEAGLE在不依赖任何额外数据的情况下,其性能不仅不亚于这些需要额外验证数据支持的方法,甚至在多数情况下还有更好的表现。这一结果不仅验证了FREEEAGLE方法的有效性,也展示了其在实际应用中的潜力,尤其是在数据获取受限或完全没有可用验证数据的环境中。
原文始发于微信公众号(数缘信安社区):FREEEAGLE:一种针对深度神经网络的无数据后门检测方法
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论