​每周一篇Paper赏析:恶意PDF分类器的鲁棒训练

admin 2022年6月2日07:48:56评论42 views字数 1786阅读5分57秒阅读模式

本周我们介绍一篇来自哥伦比亚大学的发表在USENIX 2020上的关于恶意PDF分类器鲁棒训练的工作,论文第一作者为Yizheng Chen,是哥伦比亚大学的一名博后,主要研究方向为安全机器学习以及将机器学习解决安全问题。

在计算机安全领域,机器学习算法已经被广泛应用在恶意软件检测、垃圾邮件检测等分类问题上,并且总体上,这类学习算法已经实现了很高的准确度,以及很低的误报(假阳性)率。然而,恶意攻击者通过对原恶意文件的修改可较容易地通过这些分类器的检测,这带来了很大的安全隐患。

​每周一篇Paper赏析:恶意PDF分类器的鲁棒训练



举例而言,原本被Googlegmail恶意文件检测系统分类为恶意pdf的文件,插入一本正常的pdf教材后,将不会被检测为恶意pdf而发送出去。


因此,如何能够找到一种算法,使得即使恶意攻击者对恶意程序进行了干扰和修改,分类器依然能够做出正确的判断就成为了一个重要的安全问题。我们称这样的分类器为一个鲁棒(Rouboust)的分类器。具体到被分类器普遍使用的神经网络算法,我们称能够产生鲁棒分类器的训练方法叫做鲁棒训练。本文主要关注对于pdf文件分类器神经网络的鲁棒训练。


​每周一篇Paper赏析:恶意PDF分类器的鲁棒训练

总体而言,如上图最左边的图像所示,传统的分类器训练的目标是使得分类误差(Loss)最小。而上图中间图像中的恶意攻击者可在一定范围内变动恶意文件,从而使得恶意程序被误判为正常程序,这个过程实际上是恶意攻击者在这个变动范围内寻找使得分类器的分类误差最大的变动的过程。上图最右侧是鲁棒训练的示意图,我们首先对恶意程序的可修改的范围进行一个超近似(Over-approximation),然后将这个范围输入到神经网络,通过区间分析技术对神经网络的输出进行区间估计,从而得到一个神经网络的输出范围(即图中半透明的蓝色圆圈),鲁棒训练的目标是通过某种训练方式,可以使得所有的神经网络的输出范围都能落在正确分类的一侧。因此,攻击者和鲁棒分类器实际上是一个极大极小(Min-max)的博弈过程。


给定一个恶意文件,一个拥有无限能力、不加任何限制的的攻击者总是可以找到一个该文件的修改方法,使得它可以逃避分类器的分类。因此,在网络训练阶段,如前所述,我们要对攻击者的攻击能力做出一定的合理限制,即框定攻击者对原恶意pdf的修改范围。


一个pdf文件可以被解析为一棵树,基于此,作者提出了一种叫做子树距离(Subtree Distance)的衡量方法来限制一个攻击者的能力。作者定义两棵树的子树距离为根结点下不同的子树的个数。



​每周一篇Paper赏析:恶意PDF分类器的鲁棒训练

例如在上图中,由于右图删除了左图根结点下/OpenAction节点的一个叶节点/Length,二者的子树距离便为1


有了子树距离的概念之后,我们便可以限制攻击者的攻击能力了。例如我们可以限制攻击者修改后的pdf文件和原pdf文件的子树距离最大为1,修改具体又可分为对子树的插入和删除。


在具体的训练过程中,针对给定的pdf文件和给定的攻击者的攻击能力,作者先用数组将该pdf文件的变化范围通过超近似表示出来,然后将该范围输入到神经网络,通过神经网络的区间分析技术得到神经网络的输出范围,然后取该范围内,使得该网络的分类误差最大的误差进行回传。


训练过程中同时用到了一些经验性的技巧,如为了降低误报率,回传的误差中要加入一部分正常的,不是用区间估计得到的误差。同时为了使单个模型可以防御多种攻击能力的攻击者,训练使用了融合训练的方法,使用针对不同的攻击能力的训练簇(batch)对单一模型进行训练。


​每周一篇Paper赏析:恶意PDF分类器的鲁棒训练

实验结果如上图,对比之前的Monotonic鲁棒分类器,该方法实现了更高的准确率,更低的误报率,以及更高的在具有删除操作的攻击者上的可验证的准确率(即通过超近似和区间估计,确保一个具有该能力的攻击者,无论如何对一个pdf进行修改,都会被正确分类)。



​每周一篇Paper赏析:恶意PDF分类器的鲁棒训练


​每周一篇Paper赏析:恶意PDF分类器的鲁棒训练


同时,对无限能力攻击者的实验如上图所示,将训练好的模型推广到具有无限攻击能力的攻击者上(例如上图中的遗传算法攻击者),该方法对比Monotonic方法可使遗传算法攻击者额外花费3.7倍的进化代数以及10倍的pdf文件的L0距离来逃避该方法训练出来的鲁棒分类器,显著提升了攻击者的攻击代价。


作者在文章中使用了12种基础对比模型和7种不同的攻击模型进行试验,详情可点击下方查看原文。


原文始发于微信公众号(上科大系统与软件安全实验室S3L):​每周一篇Paper赏析:恶意PDF分类器的鲁棒训练

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年6月2日07:48:56
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   ​每周一篇Paper赏析:恶意PDF分类器的鲁棒训练https://cn-sec.com/archives/1062352.html

发表评论

匿名网友 填写信息