加密恶意流量识别及对抗研究

admin 2024年8月1日15:02:43评论189 views字数 9136阅读30分27秒阅读模式

引  言

       随着公众网络安全意识的增强,加密技术被广泛应用。在加密技术保护数据安全和用户隐私的同时,也掩盖了数据的特征,有助于攻击者滥用其逃避识别,给网络安全防护及监管带来新的挑战。准备识别加密的恶意流量对于保护网络资源、维护网络空间安全具有重要意义。

       本文对加密恶意流量识别方法进行介绍,主要包括基于规则、基于传统机器学习和基于深度学习的方法。其中,基于深度学习的方法可以自动从原始流量中提取特征,并发现不同特征间的非直观联系,而被广泛应用。另一方面,加密恶意流量识别具有高对抗性,基于深度学习的加密恶意流量识别模型易受到对抗攻击,大都缺少处理对抗样本的鲁棒性。攻击者可以通过在原始样本上添加一些微小的扰动,生成对抗样本,误导识别系统做出错误决策,增大了防御方识别恶意流量的难度。为抵御对抗攻击带来的安全威胁,防御方也发展了相应的对抗防御措施。本文将从攻击和防御两个视角对加密恶意流量的对抗研究进行介绍。

1

加密恶意流量识别技术

在加密恶意流量识别研究中,对加密负载进行解密再识别的方法会消耗大量资源并侵犯用户隐私。因此,在不解密的条件下对加密流量进行有效识别是当前网络安全领域的重点。如图1所示,目前的加密恶意流量识别研究主要分为三类:基于规则的方法、基于传统机器学习(Machine Learning, ML)的方法和基于深度学习(Deep Learning, DL)的方法[1]。
加密恶意流量识别及对抗研究

图1 加密恶意流量识别研究

(1) 基于规则的方法
基于规则的方法,利用加密流量的字段组合、排序或者固定模式等作为指纹进行模式匹配,如加密通信中剩余的明文信息[2],高度依赖规则库,易被绕过。随着网络流量加密化进程的推进,明文信息越来越稀疏,基于规则的方法变得更加困难,研究人员渐渐致力于将机器学习和深度学习方法应用到加密恶意流量识别的问题上。
(2) 基于传统机器学习的方法
基于传统ML的方法,可以从样本中获取规则用于推理和决策,具有较高的可解释性。常用的ML算法模型包括:朴素贝叶斯、决策树、支持向量机、随机森林、线性回归、逻辑回归、XGBoost算法等有监督算法和K-means聚类等无监督算法。
李慧慧等人[3]通过提取加密流量会话的包长与时间统计特征结合加密协议特征作为逻辑回归、决策树和随机森林的输入,提高改识别准确率,但手动设计、提取特征仍需耗费较大的资源。
Chen等人[4]提出一种改进密度峰值聚类算法(DPC-GSMND),可以有效地降低计算复杂度,提高加密恶意流量识别精度。然而,无监督模型的训练依赖大量样本的支撑,当样本数量不足时,识别精度可能会下降。
基于传统ML的方法取得了不错的成果,但它是对流量特征的浅层学习,且依赖于人工的特征工程,泛化能力有限。同时,部分流量特征容易过时,需要不断更新。
(3) 基于深度学习的方法
深度学习的迅速发展为加密恶意流量的识别研究提供了新的可行的思路。基于DL的方法,以原始流量数据或流量的统计特征作为DL模型的输入,自动从从原始流量中提取特征或发现不同流量特征间的非直观联系。
在加密恶意流量识别研究中,常用的深度学习模型包括:多层感知机(Multilayer Perceptron, MLP)、卷积神经网络(Convolutional Neural Network, CNN)、循环神经网络(Recurrent Neural Network, RNN)、自动编码器(Auto Encoder, AE)和生成对抗模型(Generative Adversarial Networks, GAN)等等。
  • MLP可用于加密流量识别。Wang等人[5]将原始数据包字节向量作为MLP的输入,实现了加密流量分类。然而,MLP的结构较为简单,无法处理高维输入和隐藏层参数过多的问题。

  • CNN通过卷积和池化操作可以有效减少模型参数数量,较好地处理高维输入。Lucia 等人[6]使用CNN进行恶意TLS流量识别,结合早停法避免过拟合,最终准确率达到99%以上。但此研究需提取 TLS 流的大小和方向作为模型输入,增加了人工成本。另一方面,CNN能够有效提取流量的空间特征。Wang等人[7]首次将原始流量处理成二维灰度图像作为2D-CNN的输入,以提取流量的深层空间特征,实现对流量的准确识别。之后,Bazuhair等人[8]将流量特征转换为灰度图像,并使用Perlin噪声对图像进行增强,从而改进流量表示。

  • GNN也可以有效提取流量的空间特征。GCN-ETA[9]在两个流有着相同的IP时构建图的边,以实现恶意流量识别,但这可能导致整个图非常密集。同时,图的构造通常需要大量的计算和时间成本。

  • RNN可以有效提取流量的时序特征。Li 等人[10]提出的 HALNet使用卷积块提取字节特征,使用多头注意机制和BiLSTM提取全局时序特征,使用skip-LSTM提取局部时序特征,有着更好的泛化能力。

  • AE常用于降维和特征提取。Deep-Full Range(DFR)[11]由CNN、LSTM和栈式自编码器(Stacked Auto Encoder, SAE)组成,通过CNN提取空间特征,通过LSTM提取时序特征,通过SAE提取编码特征,具有较好的入侵检测性能。然而,DFR 仅针对非加密恶意流量,针对加密恶意流量的识别性能有待提升。

  • GAN是一种常用的数据生成方法,可以生成流量样本,扩充数据集,解决加密恶意流量识别中的数据不平衡问题。PacketCGAN[12]以条件 GAN为基础,可以将应用程序类型作为条件输入模型,一次生成多种类样本,但其训练存在不稳定和易崩溃的问题。CTTGAN[13]不需要将网络流量数据转换为图像,而是提取其有效特征,再通过CTGAN扩展生成特征数据,降低了存储成本和计算复杂度,但其对于数量过少的流量类别的生成性能有待提升,且特征提取会增加时间成本。

除了上述常用的深度学习模型,Zhang等人[14]基于深度森林提出DF-IDS,以会话为粒度对流量进行切分,再转换为二维图像作为深度森林的输入,最终实现对SSL/TSL加密恶意流量的细粒度识别。
基于深度学习的识别方法具有以下优点:
1) 自动提取流量特征,减少人工成本;
2) 深层学习,发现流量特征间的非直观联系;
3) 在一定程度上解决数据不平衡问题。
同时也存在一定的局限性:
1)  计算存储开销大,大部分DL模型依赖大规模数据的长时间训练;
2)   DL模型属于黑盒模型,可解释性较差;
现实网络环境动态多变,如何对模型进行实时训练和动态调整仍有待研究。

2

加密恶意流量对抗技术

加密恶意流量识别具有高对抗性,而基于深度学习的流量识别方法易受到对抗攻击导致识别错误,缺少应对对抗样本(对抗样本指的是,在原始样本上添加一些微小扰动而生成的新的输入样本[15])的鲁棒性。对抗样本和原始样本在人为观察上无明显差异,可以误导识别模型。攻击者常将恶意流量伪装成正常流量,生成对抗样本,增大了防御方识别恶意流量的难度。为抵御对抗攻击带来的安全威胁,防御方也发展了相应的对抗防御措施。
(1) 对抗攻击技术
加密恶意流量识别及对抗研究

图2 对抗攻击方法分类

如图2所示,对抗攻击可分为白盒,灰盒和黑盒攻击方法。其中,白盒攻击方法,指攻击方完全掌握防御方的训练数据、样本特征、算法模型和参数权重等详细信息,包括快速梯度符号方法 (Fast Gradient SignMethod, FGSM)[16]、投影梯度下降法 (Projected Gradient Descent, PGD)[17]、基于雅可比矩阵的显著图攻击方法 (Jacobian-based Saliency Map Attack, JSMA)[18]和C&W 攻击方法 (Carlini and Wagner Attack, C&W)[19]等。黑盒攻击方法,指攻击方没有防御方识别模型的先验知识,仅能通过访问模型获取模型输出。灰盒攻击方法,指攻击方能够通过访问模型获得不同程度的模型信息,包括模型的特征空间和训练集分布,但没有模型的确切信息。常用的黑盒/灰盒攻击有:通用对抗扰动 (UniversalAdversarial Perturbation, UAP)[20]、零阶优化 (Zeroth Order Optimization, ZOO)[21]、GAN 及其变种和强化学习等方法。
  • FGSM、JSMA和PGD是基于梯度的攻击方法,沿分类模型的梯度上升方向对原始样本添加扰动,使模型损失函数增加,从而导致模型识别错误。

  • C&W是基于优化的攻击方法,在范数L0、L2和L∞上均有较大改善,能够生成更优的对抗样本。

  • UAP通过对数据点进行迭代DeepFool攻击,直至错误率达标,从而得到能使大部分数据都被误判的通用扰动,具有很强的泛化能力。Sadeghzadeh等人[22]应用UAP生成对抗流量,仅将扰动注入到输入的某些特定部分,例如数据包的末尾或虚拟数据包的情况下,生成对抗流量,降低1D-CNN模型的识别性能。

  • ZOO,使用零阶优化对目标模型的梯度进行估计,而无需训练替代模型。

  • GAN及其变种,通过生成器学习对抗特征,或生成扰动构造对抗样本。李杰等人[23]使用WGAN生成目标流量的伪装特征,构造相应的目标流量模式,再通过代理系统依据流量模式将流量变形,能够将流量伪装成任意正常目标流量,屏蔽流量识别。

  • 强化学习[24],通过智能体依据目前识别模型的奖励反馈从动作空间选取下一个动作,其中动作空间包括:对流量样本数据包的增减操作,对目标主机的网络服务类型、连接进程的端口号等进行修改的操作等等,从而实现对恶意流量样本的迭代修改,直到目标识别模型被成功绕过。

对抗样本的出现暴露了基于深度学习的加密恶意流量识别模型的脆弱性。其中,以真实对抗流量为输出的攻击方法更具现实价值。而以流量向量表示为输出的攻击方法,虽然对识别模型的实际威胁较弱,但由于恶意流量特征的选择具有代表性和相似性,经验丰富的领域专家可以对典型的恶意特征进行扰动,进而实现对模型的攻击,也具有一定的意义。
(2)对抗防御技术
加密恶意流量识别及对抗研究

图3 对抗防御方法分类

为降低对抗攻击对识别模型的影响,相应的对抗防御方法包括如图3所示的处理数据和改进识别模型。
  • 处理数据,指在对抗样本输入识别模型前,对输入数据进行处理,包括:数据压缩和消除扰动等方法。Han等人[25]选择删除鲁棒性得分较低的特征进行特征压缩,以减少攻击者可扰动的范围,起到了较好的防御效果。消除扰动,即将对抗样本恢复成原始样本,如APE-GAN[26]等。被动防御不需要修改识别模型的结构和参数,更易被部署,但无法提高整体模型的鲁棒性[27]。

  • 改进识别模型,指通过在深度神经网络中添加更多的层,或者对模型进行再训练,从而提升识别模型的泛化能力和鲁棒性,包括:深度压缩网络、防御蒸馏和对抗训练等方法。Gu等人[28]提出了一种融合了平滑惩罚的端到端训练深度压缩网络,从而在保证不会显著降低性能的前提下,增加了网络对对抗样本的稳健性。而防御蒸馏[29],原是网络模型压缩技术,能够在保持网络性能的条件下把大网络压缩成小网络。通过在蒸馏的过程中调整温度,产生更加平滑、对扰动更加不敏感的模型,从而提升模型的鲁棒性。对抗训练[17]通过在模型的训练数据集添加预先构造的对抗样本,提升模型针对对抗样本的稳健性。根据加入对抗样本的不同,又可进一步分为 FGSM 对抗训练、PGD 对抗训练和集成对抗训练防御方法。

3

总  结

深度学习的迅速发展为加密恶意流量识别与对抗带来了新的机遇与挑战。基于深度学习的加密恶意流量识别方法能够自动提取流量特征,有效减少人工成本、提高识别的准确率和精度,是领域内研究的主流方向。然而,现实网络环境中恶意流量具有动态性和隐蔽性,能够进行实时训练和快速动态调整的自适应模型值得进一步深入研究。另一方面,加密恶意流量识别具有高对抗性。尤其,基于深度学习的流量识别模型易受到对抗攻击,缺少应对对抗样本的鲁棒性。因此,如何进一步利用深度学习模型进行对抗防御、提升防御措施的泛化能力,抵御更多种类的对抗攻击,以及如何进行真实对抗流量样本的构造,从原始流量生成的角度进行攻防研究,是未来有待突破的研究难点。

参考文献

[1] 樊祖薇,张顺亮,赵泓策.基于深度学习的恶意加密流量检测及对抗技术综述[J].信息安全学报,已采用.

[2] Van Ede T, Bortolameotti R, Continella A, et al. Flowprint: Semi-supervised mobile-app fingerprinting on encrypted network traffic [C] Network and Distributed System Security Symposium (NDSS), 2020.

[3] 李慧慧, 张士庚, 宋虹, et al. 结合多特征识别的恶意加密流量检测方法[J].信息安全学报, 2021, 6(2) :129-142.

[4] Chen L, Gao S, Liu B, et al. THS-IDPC: A three-stage hierarchical sampling method based on improved density peaks clustering algorithm for encrypted malicious traffic detection [J]. The Journal of Supercomputing, 2020, 76(9): 7489-518.

[5] Wang P, Ye F, Chen X, et al. Datanet: Deep learning based encrypted network traffic classification in sdn home gateway [J]. IEEE Access, 2018, 6: 55380-55391.

[6]  De Lucia M J, Cotton C. Detection of encrypted malicious network traffic using machine learning [C]//MILCOM 2019-2019 IEEE Military Communications Conference (MILCOM). IEEE: 1-6.

[7] Wang W, Zhu M, Zeng X, et al. Malware traffic classification using convolutional neural network for representation learning[C]. 2017 International conference on information networking, 2017: 712-717.

[8] Bazuhair W, Lee W. Detecting malign encrypted network traffic using perlin noise and convolutional neural network [C]//2020 10th Annual Computing and Communication Workshop and Conference (CCWC). IEEE, 2020: 0200-0206.

[9] Zheng J, Zeng Z, Feng T. GCN-ETA: High-Efficiency Encrypted Malicious Traffic Detection [J]. Security and Communication Networks, 2022, 2022.

[10]  Li R, Song Z, Xie W, et al. Halnet: A hybrid deep learning model for encrypted c&c malware traffic detection [C]//Yang M, Chen C, Liu Y. Network and System Security. Springer International Publishing, 2021: 326-339.

[11] Zeng Y, Gu H, Wei W, et al. Deep-full-range : a deep learning based network encrypted traffic classification and intrusion detection framework [J]. IEEE Access, 2019, 7: 45182-45190.

[12] Wang P, Li S, Ye F, et al. Packetcgan: Exploratory study of class imbalance for encrypted traffic classification using cgan [C]//ICC 2020-2020 IEEE International Conference on Communications (ICC). IEEE, : 1-7.

[13] Wang J, Yan X, Liu L, et al. Cttgan: Traffic data synthesizing scheme based on conditional gan [J]. Sensors, 2022, 22(14): 5243.

[14] Zhang X, Zhao M, Wang J, et al. Deep-Forest-Based Encrypted Malicious Traffic Detection [J]. Electronics, 2022, 11(7): 977.

[15] 刘奇旭, 王君楠, 尹捷, 等. 对抗机器学习在网络入侵检测领域的应用 [J]. 通信学报, 2021, 42(11): 1.

[16] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples [J]. CoRR, 2014, abs/1412.6572.

[17] Madry A, Makelov A, Schmidt L, et al. Towards deep learning models resistant to adversarial attacks [J]. ArXiv, 2017, abs/1706.06083.

[18] Papernot N, McDaniel P, Jha S, et al. The limitations of deep learning in adversarial settings[C]//2016 IEEE European Symposium on Security and Privacy (EuroS&P). 372-387.

[19] Carlini N, Wagner D. Towards evaluating the robustness of neural networks [C]//2017 IEEE Symposium on Security and Privacy (SP). 39-57.

[20] Moosavi-Dezfooli S M, Fawzi A, Fawzi O, et al. Universal adversarial perturbations [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 86-94.

[21] Chen P Y, Zhang H, Sharma Y, et al. Zoo: Zeroth order optimization based black-box attacks to deep neural networks without training substitute models [J]. Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security, 2017.

[22] Sadeghzadeh A M, Shiravi S, Jalili R. Adversarial network traffic: Towards evaluating the robustness of deep-learning-based network traffic classification [J]. IEEE Transactions on Network and Service Management, 2020, 18: 1962-1976.

[23] 李杰, 周路, 李华欣, et al. 基于生成对抗网络的网络流量特征伪装技术[J]. 计算机工程, 2019, 12.

[24] Fang Z, Wang J, Geng J, et al. A3CMal: Generating adversarial samples to force targeted misclassification by reinforcement learning [J]. APPLIED SOFT COMPUTING, 2021, 109: 107505.

[25] Jin G, Shen S, Zhang D, et al. APE-GAN: Adversarial Perturbation Elimination with GAN [C] ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019.

[26] Han D, Wang Z, Zhong Y, et al. Practical Traffic-space Adversarial Attacks on Learning-based NIDSs [J]. ArXiv, 2020, abs/2005.07519.

[27] 樊祖薇,张顺亮,刘银龙.对抗环境下基于主动防御的鲁棒加密恶意流量识别[J].信息安全学报,已采用

[28] Gu S S, Rigazio L. Towards Deep Neural Network Architectures Robust to Adversarial Examples [J]. CoRR, 2014, abs/1412.5068.

[29] Papernot N, McDaniel P, Wu X, et al. Distillation as a defense to adversarial perturbations against deep neural networks [C] 2016 IEEE symposium on security and privacy (SP), 2016.

中国保密协会

科学技术分会

长按扫码关注我们

加密恶意流量识别及对抗研究

作者:樊祖薇 中国科学院信息工程研究所

责编:向灵孜

2023年精彩文章TOP5回顾

利用声掩蔽保护手机通话中的音频隐私

通信感知一体化技术(ISAC)简述

电磁指纹技术发展简述

电磁超材料简介

网络攻击流量检测技术简述

近期精彩文章回顾

新技术——无线信号实现语音窃听知多少

涉密载体的管理、销毁和数据恢复

未知攻击检测技术研究简述

基于注意力长短期记忆的语音可理解度分类系统

区块链上的零知识证明技术及其典型算法、工具

原文始发于微信公众号(中国保密协会科学技术分会):加密恶意流量识别及对抗研究

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年8月1日15:02:43
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   加密恶意流量识别及对抗研究https://cn-sec.com/archives/3022103.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息