FREEEAGLE:一种针对深度神经网络的无数据后门检测方法

admin 2024年11月6日10:19:00评论3 views字数 1909阅读6分21秒阅读模式
FREEEAGLE:一种针对深度神经网络的无数据后门检测方法
揭示潜藏风险:识别神经网络的特洛伊木马

撰文 | 丁景宏

编辑 | 刘梦迪

背景介绍

在当前深度神经网络(DNNs)广泛应用的背景下,网络模型的安全性问题逐渐凸显。特别是,在模型共享平台上,存在一种称为“后门攻击”的安全威胁。这种攻击通过在模型的训练数据中植入后门,使得模型在遇到含有特定触发器的输入时表现出攻击者预设的异常行为。尽管已有多种后门检测方法,但大多数方法都假设防御者能够访问到无触发器的干净验证样本,这在某些关键的实际应用场景中并不现实。

在2023年的USENIX Security会议上,来自浙江大学的Chong Fu等人针对这一问题提出了一种名为“FREEEAGLE”的无数据后门检测方法。该方法首创性地不依赖任何干净或有触发器的样本,能够有效检测出深度神经网络中的复杂后门攻击。FREEEAGLE通过分析神经网络模型的分类器部分行为,检测是否存在特定的类别使模型输出异常,从而识别和防御后门攻击。

这一突破性的研究不仅提升了模型共享平台的安全性,也为后门攻击的防御提供了新的技术路径。

已有工作

在后门攻击领域,尽管已经有多种检测方法被提出,但大多数都依赖于能够访问干净或含有触发器的验证样本。例如,Neural Cleanse方法通过逆向工程来识别并清除模型中的潜在后门,但它需要一定数量的干净样本来正确运作。此外,另一种常见的检测技术是通过异常检测方法来识别模型行为中的不寻常模式,但这通常也需要比较大量的数据支持。

与现有方法相比,FREEEAGLE方法的独特之处在于它完全不需要依赖任何额外的数据输入。这种方法利用的是模型本身的信息,通过分析模型的决策边界来识别是否有异常的类别操纵行为。FREEEAGLE特别关注于模型的分类器部分,尤其是在没有任何干净或带有触发器的样本情况下,能够识别那些特别设计来触发后门行为的输入。

FREEEAGLE:一种针对深度神经网络的无数据后门检测方法
FREEEAGLE框架

此外,该方法还展示了在不同的数据集和模型架构上的广泛适用性和有效性,即使是在面对复杂的后门攻击时,如那些具有语义层面触发器或特定类别触发的攻击,FREEEAGLE也能表现出卓越的检测能力。这标志着一个重要的技术进步,为在实际应用中安全使用AI模型提供了更强的保障。

实验内容及结果

在实验部分,文章对FREEEAGLE方法进行了广泛的测试,以验证其在多种数据集和模型架构中的效果。文章选用了包括CIFAR-10、ImageNet-R和GTSRB等在内的多个公开数据集,并在不同的神经网络模型上进行了后门攻击的模拟,包括VGG-16、ResNet-50和GoogLeNet等。

FREEEAGLE方法在所有测试场景中均展示出了优异的检测性能。特别是在没有任何干净或有触发器样本的情况下,FREEEAGLE不仅能够有效检测出类别无关(class-agnostic)和类别特定(class-specific)的后门攻击,还能够识别出使用复杂触发器的攻击,这些触发器可能是在图像的语义层面进行设计的。例如,在CIFAR-10数据集上,针对使用像素级触发器的攻击,FREEEAGLE的检测正确率(True Positive Rate, TPR)达到了98%,而假阳性率(False Positive Rate, FPR)保持在非常低的水平,仅为0.03%。

此外,文章还将FREEEAGLE与现有的一些主流后门检测方法,如Neural Cleanse和STRIP等进行对比。结果表明,FREEEAGLE在不依赖任何额外数据的情况下,其性能不仅不亚于这些需要额外验证数据支持的方法,甚至在多数情况下还有更好的表现。这一结果不仅验证了FREEEAGLE方法的有效性,也展示了其在实际应用中的潜力,尤其是在数据获取受限或完全没有可用验证数据的环境中。

结论

FREEEAGLE方法在后门攻击检测领域提供了一种创新且有效的解决方案。通过全面的实验验证,文章证明了FREEEAGLE在不依赖任何额外数据的情况下,能够有效识别并防御包括复杂触发器和类别特定攻击在内的多种后门威胁。这一方法的成功应用突破了传统后门检测技术的局限性,特别是在无法获得干净或带有触发器样本的实际应用场景中,展现出了极高的实用价值和广泛的适用性。

参考资料

[1] Fu C, Zhang X, Ji S, et al. {FreeEagle}: Detecting Complex Neural Trojans in {Data-Free} Cases[C]//32nd USENIX Security Symposium (USENIX Security 23). 2023: 6399-6416.

FREEEAGLE:一种针对深度神经网络的无数据后门检测方法

原文始发于微信公众号(数缘信安社区):FREEEAGLE:一种针对深度神经网络的无数据后门检测方法

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年11月6日10:19:00
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   FREEEAGLE:一种针对深度神经网络的无数据后门检测方法https://cn-sec.com/archives/3361778.html

发表评论

匿名网友 填写信息