【顶会论文分享】开放环境下的鲁棒异常检测

admin 2023年3月17日18:24:18评论95 views字数 4411阅读14分42秒阅读模式
【顶会论文分享】开放环境下的鲁棒异常检测


机器学习模型有效的前提假设是:训练阶段与模型部署阶段的数据分布一致,然而在真实世界中,数据往往是变化的,输入与输出之间的关联性也会发生变化,这种现象(概念漂移)会导致机器学习模型的表现下降;异常检测任务作为安全领域的一项重要任务,应用领域广泛,异常检测的模型同样会受概念漂移现象的影响。为了提高异常检测算法的鲁棒性,本文介绍一篇NDSS2023年的论文[1],该论文关注正常行为的变化情况,剔除过期正常行为,添加新增正常行为,从而使模型适应数据的变化,提高鲁棒性。 


一、背景

安全领域中,业内往往使用UEBA(用户实体行为分析)的方法进行异常行为识别,该方法通过对正常行为进行建模,从而区分异常行为,更近一步,在安全领域,攻击行为千变万化,异常行为不能被枚举,而UEBA方法仅对正常行为进行建模,异常行为无论怎么变化理论上都能被检测出来,对异常行为变化免疫的这一特性也使得UEBA的方法备受推崇。然而在实际操作中,UEBA的方法会面临大量误报,产生误报的原因主要由两方面(图1):

1. 方法固有问题。异常数据中仅有少量的攻击数据,而安全领域中往往比较关注攻击事件,将海量非攻击行为触发的异常数据当做误报。输出结果包含大量误报是UEBA方法自身的局限,该局限性也是制约UEBA方法落地的主要因素,笔者认为,UEBA方法是异常检测的中间步骤而不是最后一步,对于海量异常数据应该进行合适的后处理操作。

2. 模型的适应性问题。随着数据的变化,正常模式也在发生变化,会有新的正常模式出现,旧的正常模式可能在新数据上为异常模式,而目前UEBA的方法无法捕捉这种正常模式的变化,导致模型效果随着时间的推移逐渐下降甚至不可用。该问题是本文的重点。

【顶会论文分享】开放环境下的鲁棒异常检测

图1. UEBA方法的误报产生原因

UEBA方法在学术界成为异常检测,下文对于两者不进行区分。


二、文章介绍

2.1

 常态漂移

“常态漂移”是文章提出的新概念,表示正常数据的分布随时间的变化而变化。在介绍常态漂移之前,我们先介绍“概念漂移”。

概念漂移是监督学习中的常见概念,表示样本分布与标签分布之间映射关系的变化,即x,y(x为样本,y为标签)联合概率的变化,由于,概念漂移问题的来源有3个:1. 变化,2. 变化,3. 两者同时变化。

与概念漂移不同,常态漂移仅关注正常数据的漂移,如果将样本空间分为正常样本空间和异常样本空间,,则常态漂移关注,由于与模型本身无关,不会降低模型的质量,因此仅需关注部分即可,而异常检测模型学习的是x与y之间的映射关系,即,关注对象变为,为了区分数据分布变化前后后验概率的变化,将新正常数据空间表示为,旧正常数据空间表示为,则需要比较的对象变成了与,

2.2 

检测框架

为了检测正常数据分布的变化,文章提出OWAD(Open-World Anomaly Detection)框架,框架流程如图2所示,假设样本{,}是从旧正常样数据中采集的5个样本,{,}为新正常数据采集的5个样本,以这些数据为样例,整体流程如下:

1. 使用一种无监督校验方法对异常检测的结果进行校验,输出预测的置信度,可以进行归一化,扩大差异范围;

2. 利用假设检验的方法计算输出样本空间是否是符合相似的分布;

3. 基于最优化的方法提供可解释性,对于每个旧样本和新样本给出权重,该权重意味着对漂移现象的影响程度,这个模块的目的在于重构正常样本的空间,为了最小化打标签的成本,需要尽可能沿用旧样本空间的数据,如图2所示,高可信样本包括,和,可以看到已经淘汰,作为新增数据加入正常样本空间。

4. 计算异常检测模型各个参数对于新分布重要程度,设置损失函数的惩罚项根据新样本更新参数的重要度,从而更新模型。

【顶会论文分享】开放环境下的鲁棒异常检测

图2、OWAD流程图[1]

2.3 

测试结果

文章选取3种数据集以及几种的基准方法做比较,展示了该方法的有效性。

3种数据集:

1. 入侵检测数据集NID[2]。该数据集收集京都大学2006年到2015年的蜜罐数据,使用KitNET[3]方法作为基础异常检测算法。

2. 日志数据集LogAD[4]。该数据集采集自BlueGene/L超算集群214天的系统日志,使用DeepLog[5]方法作为基础异常检测算法。

3. APT数据集[10]。该数据集采集自美国洛斯阿拉莫斯国家实验室,包含58天的用户登录数据,涉及海量用户和设备,使用GLGV[6]做图嵌入和异常检测模型。

基准方法包含5种,前两种为:不升级模型和同时使用新数据和旧数据升级模型,剩余3种使用解决模型鲁棒性的方法做比较:UNLEARN[7]、CADE[8]、TRANSCENDENT[9],这3种方法从不同角度做模型的鲁棒性优化,本文在此不做介绍。

本文截取其中一组实验结果做展示,如图3所示,结论如下:

【顶会论文分享】开放环境下的鲁棒异常检测

图3、5种方法在3种数据集上的实验结果

1. 从鲁棒性方面。OWAD在所有方法中鲁棒性最好,随时间增加,效果减少最小。并且文章发现越早应用模型,模型越鲁棒。

2. 从标记成本方面。由于新数据需要进行人工标定才能进行新模型的训练,这里涉及到人工成本问题,可以看到OWAD整体上标记成本最低。


三、总结

模型的鲁棒性是机器学习领域的重要研究问题,也是通用人工智能需要解决的最重要的问题。在安全领域,异常检测算法的鲁棒性是算法落地生效的关键问题之一,本文通过介绍最新的提升异常检测算法鲁棒性的论文,该论文通过自动化方法,发现新旧数据集正常数据分布的变化,淘汰旧数据,增加新数据,并且设计了一套完整的模型更新方法。希望读者可以通过该文借鉴并思考算法在安全领域的落地使用问题。

 

参考文献

[1] Han, Dongqi, et al. "Anomaly Detection in the Open World: Normality Shift Detection, Explanation, and Adaptation."

[2]Song, Jungsuk, et al. "Statistical analysis of honeypot data and building of Kyoto 2006+ dataset for NIDS evaluation." Proceedings of the first workshop on building analysis datasets and gathering experience returns for security. 2011.

[3]Mirsky, Yisroel, et al. "Kitsune: an ensemble of autoencoders for online network intrusion detection." In Network and Distributed Systems Security (NDSS) Symposium, 2018

[4]Oliner, Adam, and Jon Stearley. "What supercomputers say: A study of five system logs." 37th annual IEEE/IFIP international conference on dependable systems and networks (DSN'07). IEEE, 2007.

[5] Du, M., Li, F., Zheng, G., & Srikumar, V. (2017, October). Deeplog: Anomaly detection and diagnosis from system logs through deep learning. In Proceedings of the 2017 ACM SIGSAC conference on computer and communications security (pp. 1285-1298).

[6] Bowman, B., Laprade, C., Ji, Y., & Huang, H. H. (2020, October). Detecting Lateral Movement in Enterprise Computer Networks with Unsupervised Graph AI. In RAID (pp. 257-268).

[7] Du, Min, et al. "Lifelong anomaly detection through unlearning." Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security. 2019.

[8] Yang, L., Guo, W., Hao, Q., Ciptadi, A., Ahmadzadeh, A., Xing, X., & Wang, G. (2021, August). CADE: Detecting and Explaining Concept Drift Samples for Security Applications. In USENIX security symposium (pp. 2327-2344).

[9] Jordaney, R., Sharad, K., Dash, S. K., Wang, Z., Papini, D., Nouretdinov, I., & Cavallaro, L. (2017). Transcend: Detecting concept drift in malware classification models. In 26th USENIX Security Symposium (USENIX Security 17) (pp. 625-642).

[10] Kent, Alexander D. Comprehensive, multi-source cyber-security events data set. No. LA-UR-15-23810. Los Alamos National Lab.(LANL), Los Alamos, NM (United States), 2015.

内容编辑:创新研究院  童明凯
 责任编辑:创新研究院  陈佛忠

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们


绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

【顶会论文分享】开放环境下的鲁棒异常检测

长按上方二维码,即可关注我

原文始发于微信公众号(绿盟科技研究通讯):【顶会论文分享】开放环境下的鲁棒异常检测

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年3月17日18:24:18
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   【顶会论文分享】开放环境下的鲁棒异常检测http://cn-sec.com/archives/1612262.html

发表评论

匿名网友 填写信息