G.O.S.S.I.P 阅读推荐 2023-02-16 The Beatrix'' Resurrections

admin 2023年2月24日11:01:48评论73 views字数 1593阅读5分18秒阅读模式

今天给大家带来的是发表于NDSS 2023的一篇关于AI模型后门检测的论文The "Beatrix'' Resurrections: Robust Backdoor Detection via Gram Matrices,论文由来自澳大利亚Swinburne University of Technology和CSIRO's Data61的多位作者联合完成。

G.O.S.S.I.P 阅读推荐 2023-02-16 The Beatrix'' Resurrections

研究背景和动机

AI模型后门攻击是指在训练模型的过程中植入了隐蔽的恶意功能,被攻击的模型在正常的输入数据上表现正常,但是当输入数据带有特定的触发器(trigger) 时,该模型将进行错误的决策。这种攻击对于人脸识别系统、自动驾驶系统和医疗系统等领域和场景具有严重的威胁,因为它们可能导致重大的安全威胁或财务损失。因此,检测AI模型后门攻击的研究显得十分重要。目前,学术界已经开展了大量的研究工作,提出了许多不同的方法来识别后门攻击,例如使用输入过滤,模型检测和特征分析等。这些方法都在不同程度上取得了较好的效果,但同时也存在一定的局限性。

本文通过对主流的检测方法的全面分析,揭示了这些方法的在面对动态后门 (dynamic backdoor) 攻击时的重大局限性。如图1所示,现有的防御通常是基于通用后门 (universal backdoor) 的假设(即假设后门攻击样本都使用相同且统一的触发器)。然而,在动态后门中,攻击样本携带的触发器各不相同,使得通用后门的假设在动态后门攻击中不再有效,从而攻破了现有的防御方法。为此,本文提出了一种全新的后门检测方法Breatrix (backdoor detection via Gram matrix)。Beatrix 不仅可以检测传统的通用后门攻击,也可以检测新型的动态后门攻击。

G.O.S.S.I.P 阅读推荐 2023-02-16 The Beatrix'' Resurrections

图1. 本文提出的方法 (Beatrix) 和其他现有检测方法的比较

基于Gram Matrix的后门检测

本文研究发现虽然后门攻击的输入样本和正常的输入样本在原始特征空间中深度耦合,但它们在 Gramian 特征空间中是可区分的,表明 Gram matrix是特征建模的有效工具。对于常见的卷积网络的中间层输出特征而言,其Gram matrix是不同通道的特征图的内积。因此,Gram matrix不仅考虑了每个单独通道中的特征,而且还结合了跨通道的特征相关性,有效捕获了攻击样本的特征图中的异常激活值。此外,启发于高阶Gram matrix在OOD (out-of-distribution) 检测中的应用,Beatrix在特征建模(Feature Modelling) 中还利用了Gram matrix的高阶形式来捕获中间层特征的高阶统计信息。

为了提升检测后门攻击的目标类别的性能,Beatrix采用基于Regularized Maximum Mean Discrepancy (RMMD) 的两样本检验 (Two-sample testing) 技术。之前的检测方法都假设中间层特征服从高斯分布,这种假设限制其适用性。RMMD不需要对数据分布做任何假设,提升了方法的适用性和检测的鲁棒性。

G.O.S.S.I.P 阅读推荐 2023-02-16 The Beatrix'' Resurrections

图2. Beatrix的方法框架图

实验结果与分析

本文在四个图像分类数据集上评估了Beatrix对于检测动态后门的性能,实验结果说明了Beatrix的有效性和鲁棒性。

G.O.S.S.I.P 阅读推荐 2023-02-16 The Beatrix'' Resurrections

同时本文也将Beatrix和以往的主流检测方法进行了对比。实验结果表明:

  1. 在通用后门检测上,Beatrix和以往的方法有着类似的性能;

  2. 在动态后门检测上,Beatrix仍然达到了90%以上的F-score值,大幅领先于以往的方法的性能。

G.O.S.S.I.P 阅读推荐 2023-02-16 The Beatrix'' Resurrections



代码:https://github.com/wanlunsec/Beatrix

论文:https://arxiv.org/abs/2209.11715v3



原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2023-02-16 The Beatrix'' Resurrections

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年2月24日11:01:48
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   G.O.S.S.I.P 阅读推荐 2023-02-16 The Beatrix'' Resurrectionshttps://cn-sec.com/archives/1567744.html

发表评论

匿名网友 填写信息