引 言
随着公众网络安全意识的增强,加密技术被广泛应用。在加密技术保护数据安全和用户隐私的同时,也掩盖了数据的特征,有助于攻击者滥用其逃避识别,给网络安全防护及监管带来新的挑战。准备识别加密的恶意流量对于保护网络资源、维护网络空间安全具有重要意义。
本文对加密恶意流量识别方法进行介绍,主要包括基于规则、基于传统机器学习和基于深度学习的方法。其中,基于深度学习的方法可以自动从原始流量中提取特征,并发现不同特征间的非直观联系,而被广泛应用。另一方面,加密恶意流量识别具有高对抗性,基于深度学习的加密恶意流量识别模型易受到对抗攻击,大都缺少处理对抗样本的鲁棒性。攻击者可以通过在原始样本上添加一些微小的扰动,生成对抗样本,误导识别系统做出错误决策,增大了防御方识别恶意流量的难度。为抵御对抗攻击带来的安全威胁,防御方也发展了相应的对抗防御措施。本文将从攻击和防御两个视角对加密恶意流量的对抗研究进行介绍。
1
加密恶意流量识别技术
图1 加密恶意流量识别研究
-
MLP可用于加密流量识别。Wang等人[5]将原始数据包字节向量作为MLP的输入,实现了加密流量分类。然而,MLP的结构较为简单,无法处理高维输入和隐藏层参数过多的问题。
-
CNN通过卷积和池化操作可以有效减少模型参数数量,较好地处理高维输入。Lucia 等人[6]使用CNN进行恶意TLS流量识别,结合早停法避免过拟合,最终准确率达到99%以上。但此研究需提取 TLS 流的大小和方向作为模型输入,增加了人工成本。另一方面,CNN能够有效提取流量的空间特征。Wang等人[7]首次将原始流量处理成二维灰度图像作为2D-CNN的输入,以提取流量的深层空间特征,实现对流量的准确识别。之后,Bazuhair等人[8]将流量特征转换为灰度图像,并使用Perlin噪声对图像进行增强,从而改进流量表示。
-
GNN也可以有效提取流量的空间特征。GCN-ETA[9]在两个流有着相同的IP时构建图的边,以实现恶意流量识别,但这可能导致整个图非常密集。同时,图的构造通常需要大量的计算和时间成本。
-
RNN可以有效提取流量的时序特征。Li 等人[10]提出的 HALNet使用卷积块提取字节特征,使用多头注意机制和BiLSTM提取全局时序特征,使用skip-LSTM提取局部时序特征,有着更好的泛化能力。
-
AE常用于降维和特征提取。Deep-Full Range(DFR)[11]由CNN、LSTM和栈式自编码器(Stacked Auto Encoder, SAE)组成,通过CNN提取空间特征,通过LSTM提取时序特征,通过SAE提取编码特征,具有较好的入侵检测性能。然而,DFR 仅针对非加密恶意流量,针对加密恶意流量的识别性能有待提升。
-
GAN是一种常用的数据生成方法,可以生成流量样本,扩充数据集,解决加密恶意流量识别中的数据不平衡问题。PacketCGAN[12]以条件 GAN为基础,可以将应用程序类型作为条件输入模型,一次生成多种类样本,但其训练存在不稳定和易崩溃的问题。CTTGAN[13]不需要将网络流量数据转换为图像,而是提取其有效特征,再通过CTGAN扩展生成特征数据,降低了存储成本和计算复杂度,但其对于数量过少的流量类别的生成性能有待提升,且特征提取会增加时间成本。
2
加密恶意流量对抗技术
图2 对抗攻击方法分类
-
FGSM、JSMA和PGD是基于梯度的攻击方法,沿分类模型的梯度上升方向对原始样本添加扰动,使模型损失函数增加,从而导致模型识别错误。
-
C&W是基于优化的攻击方法,在范数L0、L2和L∞上均有较大改善,能够生成更优的对抗样本。
-
UAP通过对数据点进行迭代DeepFool攻击,直至错误率达标,从而得到能使大部分数据都被误判的通用扰动,具有很强的泛化能力。Sadeghzadeh等人[22]应用UAP生成对抗流量,仅将扰动注入到输入的某些特定部分,例如数据包的末尾或虚拟数据包的情况下,生成对抗流量,降低1D-CNN模型的识别性能。
-
ZOO,使用零阶优化对目标模型的梯度进行估计,而无需训练替代模型。
-
GAN及其变种,通过生成器学习对抗特征,或生成扰动构造对抗样本。李杰等人[23]使用WGAN生成目标流量的伪装特征,构造相应的目标流量模式,再通过代理系统依据流量模式将流量变形,能够将流量伪装成任意正常目标流量,屏蔽流量识别。
-
强化学习[24],通过智能体依据目前识别模型的奖励反馈从动作空间选取下一个动作,其中动作空间包括:对流量样本数据包的增减操作,对目标主机的网络服务类型、连接进程的端口号等进行修改的操作等等,从而实现对恶意流量样本的迭代修改,直到目标识别模型被成功绕过。
图3 对抗防御方法分类
-
处理数据,指在对抗样本输入识别模型前,对输入数据进行处理,包括:数据压缩和消除扰动等方法。Han等人[25]选择删除鲁棒性得分较低的特征进行特征压缩,以减少攻击者可扰动的范围,起到了较好的防御效果。消除扰动,即将对抗样本恢复成原始样本,如APE-GAN[26]等。被动防御不需要修改识别模型的结构和参数,更易被部署,但无法提高整体模型的鲁棒性[27]。
-
改进识别模型,指通过在深度神经网络中添加更多的层,或者对模型进行再训练,从而提升识别模型的泛化能力和鲁棒性,包括:深度压缩网络、防御蒸馏和对抗训练等方法。Gu等人[28]提出了一种融合了平滑惩罚的端到端训练深度压缩网络,从而在保证不会显著降低性能的前提下,增加了网络对对抗样本的稳健性。而防御蒸馏[29],原是网络模型压缩技术,能够在保持网络性能的条件下把大网络压缩成小网络。通过在蒸馏的过程中调整温度,产生更加平滑、对扰动更加不敏感的模型,从而提升模型的鲁棒性。对抗训练[17]通过在模型的训练数据集添加预先构造的对抗样本,提升模型针对对抗样本的稳健性。根据加入对抗样本的不同,又可进一步分为 FGSM 对抗训练、PGD 对抗训练和集成对抗训练防御方法。
3
总 结
参考文献
[1] 樊祖薇,张顺亮,赵泓策.基于深度学习的恶意加密流量检测及对抗技术综述[J].信息安全学报,已采用.
[2] Van Ede T, Bortolameotti R, Continella A, et al. Flowprint: Semi-supervised mobile-app fingerprinting on encrypted network traffic [C] Network and Distributed System Security Symposium (NDSS), 2020.
[3] 李慧慧, 张士庚, 宋虹, et al. 结合多特征识别的恶意加密流量检测方法[J].信息安全学报, 2021, 6(2) :129-142.
[4] Chen L, Gao S, Liu B, et al. THS-IDPC: A three-stage hierarchical sampling method based on improved density peaks clustering algorithm for encrypted malicious traffic detection [J]. The Journal of Supercomputing, 2020, 76(9): 7489-518.
[5] Wang P, Ye F, Chen X, et al. Datanet: Deep learning based encrypted network traffic classification in sdn home gateway [J]. IEEE Access, 2018, 6: 55380-55391.
[6] De Lucia M J, Cotton C. Detection of encrypted malicious network traffic using machine learning [C]//MILCOM 2019-2019 IEEE Military Communications Conference (MILCOM). IEEE: 1-6.
[7] Wang W, Zhu M, Zeng X, et al. Malware traffic classification using convolutional neural network for representation learning[C]. 2017 International conference on information networking, 2017: 712-717.
[8] Bazuhair W, Lee W. Detecting malign encrypted network traffic using perlin noise and convolutional neural network [C]//2020 10th Annual Computing and Communication Workshop and Conference (CCWC). IEEE, 2020: 0200-0206.
[9] Zheng J, Zeng Z, Feng T. GCN-ETA: High-Efficiency Encrypted Malicious Traffic Detection [J]. Security and Communication Networks, 2022, 2022.
[10] Li R, Song Z, Xie W, et al. Halnet: A hybrid deep learning model for encrypted c&c malware traffic detection [C]//Yang M, Chen C, Liu Y. Network and System Security. Springer International Publishing, 2021: 326-339.
[11] Zeng Y, Gu H, Wei W, et al. Deep-full-range : a deep learning based network encrypted traffic classification and intrusion detection framework [J]. IEEE Access, 2019, 7: 45182-45190.
[12] Wang P, Li S, Ye F, et al. Packetcgan: Exploratory study of class imbalance for encrypted traffic classification using cgan [C]//ICC 2020-2020 IEEE International Conference on Communications (ICC). IEEE, : 1-7.
[13] Wang J, Yan X, Liu L, et al. Cttgan: Traffic data synthesizing scheme based on conditional gan [J]. Sensors, 2022, 22(14): 5243.
[14] Zhang X, Zhao M, Wang J, et al. Deep-Forest-Based Encrypted Malicious Traffic Detection [J]. Electronics, 2022, 11(7): 977.
[15] 刘奇旭, 王君楠, 尹捷, 等. 对抗机器学习在网络入侵检测领域的应用 [J]. 通信学报, 2021, 42(11): 1.
[16] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples [J]. CoRR, 2014, abs/1412.6572.
[17] Madry A, Makelov A, Schmidt L, et al. Towards deep learning models resistant to adversarial attacks [J]. ArXiv, 2017, abs/1706.06083.
[18] Papernot N, McDaniel P, Jha S, et al. The limitations of deep learning in adversarial settings[C]//2016 IEEE European Symposium on Security and Privacy (EuroS&P). 372-387.
[19] Carlini N, Wagner D. Towards evaluating the robustness of neural networks [C]//2017 IEEE Symposium on Security and Privacy (SP). 39-57.
[20] Moosavi-Dezfooli S M, Fawzi A, Fawzi O, et al. Universal adversarial perturbations [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 86-94.
[21] Chen P Y, Zhang H, Sharma Y, et al. Zoo: Zeroth order optimization based black-box attacks to deep neural networks without training substitute models [J]. Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security, 2017.
[22] Sadeghzadeh A M, Shiravi S, Jalili R. Adversarial network traffic: Towards evaluating the robustness of deep-learning-based network traffic classification [J]. IEEE Transactions on Network and Service Management, 2020, 18: 1962-1976.
[23] 李杰, 周路, 李华欣, et al. 基于生成对抗网络的网络流量特征伪装技术[J]. 计算机工程, 2019, 12.
[24] Fang Z, Wang J, Geng J, et al. A3CMal: Generating adversarial samples to force targeted misclassification by reinforcement learning [J]. APPLIED SOFT COMPUTING, 2021, 109: 107505.
[25] Jin G, Shen S, Zhang D, et al. APE-GAN: Adversarial Perturbation Elimination with GAN [C] ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019.
[26] Han D, Wang Z, Zhong Y, et al. Practical Traffic-space Adversarial Attacks on Learning-based NIDSs [J]. ArXiv, 2020, abs/2005.07519.
[27] 樊祖薇,张顺亮,刘银龙.对抗环境下基于主动防御的鲁棒加密恶意流量识别[J].信息安全学报,已采用
[28] Gu S S, Rigazio L. Towards Deep Neural Network Architectures Robust to Adversarial Examples [J]. CoRR, 2014, abs/1412.5068.
[29] Papernot N, McDaniel P, Wu X, et al. Distillation as a defense to adversarial perturbations against deep neural networks [C] 2016 IEEE symposium on security and privacy (SP), 2016.
中国保密协会
科学技术分会
长按扫码关注我们
作者:樊祖薇 中国科学院信息工程研究所
责编:向灵孜
2023年精彩文章TOP5回顾
近期精彩文章回顾
原文始发于微信公众号(中国保密协会科学技术分会):加密恶意流量识别及对抗研究
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论