每周一篇Paper赏析：恶意PDF分类器的鲁棒训练

2022年6月2日07:48:56评论52 views字数 1786阅读5分57秒阅读模式

本周我们介绍一篇来自哥伦比亚大学的发表在USENIX 2020上的关于恶意PDF分类器鲁棒训练的工作，论文第一作者为Yizheng Chen，是哥伦比亚大学的一名博后，主要研究方向为安全机器学习以及将机器学习解决安全问题。

在计算机安全领域，机器学习算法已经被广泛应用在恶意软件检测、垃圾邮件检测等分类问题上，并且总体上，这类学习算法已经实现了很高的准确度，以及很低的误报（假阳性）率。然而，恶意攻击者通过对原恶意文件的修改可较容易地通过这些分类器的检测，这带来了很大的安全隐患。

举例而言，原本被Google的gmail恶意文件检测系统分类为恶意pdf的文件，插入一本正常的pdf教材后，将不会被检测为恶意pdf而发送出去。

因此，如何能够找到一种算法，使得即使恶意攻击者对恶意程序进行了干扰和修改，分类器依然能够做出正确的判断就成为了一个重要的安全问题。我们称这样的分类器为一个鲁棒（Rouboust）的分类器。具体到被分类器普遍使用的神经网络算法，我们称能够产生鲁棒分类器的训练方法叫做鲁棒训练。本文主要关注对于pdf文件分类器神经网络的鲁棒训练。

每周一篇Paper赏析：恶意PDF分类器的鲁棒训练

总体而言，如上图最左边的图像所示，传统的分类器训练的目标是使得分类误差（Loss）最小。而上图中间图像中的恶意攻击者可在一定范围内变动恶意文件，从而使得恶意程序被误判为正常程序，这个过程实际上是恶意攻击者在这个变动范围内寻找使得分类器的分类误差最大的变动的过程。上图最右侧是鲁棒训练的示意图，我们首先对恶意程序的可修改的范围进行一个超近似(Over-approximation)，然后将这个范围输入到神经网络，通过区间分析技术对神经网络的输出进行区间估计，从而得到一个神经网络的输出范围（即图中半透明的蓝色圆圈），鲁棒训练的目标是通过某种训练方式，可以使得所有的神经网络的输出范围都能落在正确分类的一侧。因此，攻击者和鲁棒分类器实际上是一个极大极小（Min-max）的博弈过程。

给定一个恶意文件，一个拥有无限能力、不加任何限制的的攻击者总是可以找到一个该文件的修改方法，使得它可以逃避分类器的分类。因此，在网络训练阶段，如前所述，我们要对攻击者的攻击能力做出一定的合理限制，即框定攻击者对原恶意pdf的修改范围。

一个pdf文件可以被解析为一棵树，基于此，作者提出了一种叫做子树距离(Subtree Distance)的衡量方法来限制一个攻击者的能力。作者定义两棵树的子树距离为根结点下不同的子树的个数。

每周一篇Paper赏析：恶意PDF分类器的鲁棒训练

例如在上图中，由于右图删除了左图根结点下/OpenAction节点的一个叶节点/Length，二者的子树距离便为1。

有了子树距离的概念之后，我们便可以限制攻击者的攻击能力了。例如我们可以限制攻击者修改后的pdf文件和原pdf文件的子树距离最大为1，修改具体又可分为对子树的插入和删除。

在具体的训练过程中，针对给定的pdf文件和给定的攻击者的攻击能力，作者先用数组将该pdf文件的变化范围通过超近似表示出来，然后将该范围输入到神经网络，通过神经网络的区间分析技术得到神经网络的输出范围，然后取该范围内，使得该网络的分类误差最大的误差进行回传。

训练过程中同时用到了一些经验性的技巧，如为了降低误报率，回传的误差中要加入一部分正常的，不是用区间估计得到的误差。同时为了使单个模型可以防御多种攻击能力的攻击者，训练使用了融合训练的方法，使用针对不同的攻击能力的训练簇（batch）对单一模型进行训练。

每周一篇Paper赏析：恶意PDF分类器的鲁棒训练

实验结果如上图，对比之前的Monotonic鲁棒分类器，该方法实现了更高的准确率，更低的误报率，以及更高的在具有删除操作的攻击者上的可验证的准确率（即通过超近似和区间估计，确保一个具有该能力的攻击者，无论如何对一个pdf进行修改，都会被正确分类）。

每周一篇Paper赏析：恶意PDF分类器的鲁棒训练

同时，对无限能力攻击者的实验如上图所示，将训练好的模型推广到具有无限攻击能力的攻击者上（例如上图中的遗传算法攻击者），该方法对比Monotonic方法可使遗传算法攻击者额外花费3.7倍的进化代数以及10倍的pdf文件的L0距离来逃避该方法训练出来的鲁棒分类器，显著提升了攻击者的攻击代价。

作者在文章中使用了12种基础对比模型和7种不同的攻击模型进行试验，详情可点击下方查看原文。

原文始发于微信公众号（上科大系统与软件安全实验室S3L）：每周一篇Paper赏析：恶意PDF分类器的鲁棒训练

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

每周一篇Paper赏析：恶意PDF分类器的鲁棒训练

译文 | 《基础设施即代码》的研究和趋势分析

译文 | 使用 Defender 和 Microsoft Sentinel 检测恶意软件杀伤链

服务器取证基础—LINUX系统基本操作

OpenAI与美国国家安全合作战略情报分析

非洲金融机构频遭黑客攻击，开源工具助力复杂攻击链

APT29再现蛛丝马迹：SolarWinds 攻击的暗网地基正在浮出水面！

美国监管机构已介入调查特斯拉在奥斯汀试运行的无人驾驶出租车

win10-win11进程隐藏小技巧

戴姆勒 | 车联网安全面经分享

夏威夷航空报告网络安全攻击

发表评论

在线咨询

微信