基于机器学习的网络加密流量分析技术综述

admin 2022年10月1日09:51:49评论241 views字数 3874阅读12分54秒阅读模式

导读

今天,小编为大家简要介绍一篇发表于IEEE Communications Surveys & Tutorials的论文。

Meng Shen, Ke Ye, Xingtong Liu, Liehuang Zhu, Jiawen Kang, Shui Yu, Qi Li, Ke Xu. "Machine Learning-Powered Encrypted Network Traffic Analysis: A Comprehensive Survey," in IEEE Communications Surveys & Tutorials, 2022.

1

研究背景


       随着互联网流量的快速增长,如银行账户、支付记录等大量用户敏感信息在互联网上传输,为保障网络连接的安全性和隐私性,如SSL/TLS的数据加密技术已被广泛用。根据谷歌透明报告显示,超过95%的谷歌服务已采用加密协议保护其连接,只有合法的接收方才能解密并获得传输内容。

       网络流量分析是管理员进行网络管理和网络异常检测的有效工具,然而,不断增长的加密流量为流量分析带来了新的挑战。传统的流量分析方法通常依赖于明文负载信息,但随着加密协议的应用,一方面,许多攻击者通过流量加密隐藏恶意内容,逃避异常检测,基于明文的检测方法逐渐失效,网络管理员在加密流量中发现可疑模式变得更加困难。另一方面,网络服务提供商(ISP)通常通过分析HTTP请求头中的字段来衡量视频流的交付质量,如视频分辨率、卡顿等,然而,内容提供商采用的端到端加密技术使HTTP头部信息不可见,为ISP衡量视频传输质量带来困难。

       从终端用户的角度来看,流量加密也对用户隐私构成了新的威胁。一般来说,流量加密的出发点为避免互联网用户隐私被窃听者破坏,然而,该方法并不完全有效,用户隐私仍然受到高级侧通道攻击的威胁。例如,窃听者可通过用户上网流量分析出多种敏感信息,例如用户正在访问的网站、用户在APP中所做的操作等。加密流量分析作为一种有效的工具,让我们可以更深入地了解网络连接中存在信息泄露问题,进而设计和部署相应的防御措施。

基于机器学习的网络加密流量分析技术综述

为了应对流量加密带来的这些新挑战,大量研究采用机器学习技术从加密流量中提取有用的信息。基于机器学习的加密流量分析主要利用流量的统计特征或行为特征,该类特征受加密协议的影响较小。此外,深度学习作为机器学习的分支,具有较强的特征提取能力,在处理不断变化的流量模式时减少了人工特征选择的过程,为加密流量分析提供了新思路。近十年来,关于加密流量分析的研究成果颇丰,我们调研了2007年至2021年间发表的108篇论文。在研究的文献中,机器学习技术在加密流量分析中发挥着重要作用。因此,有必要对基于机器学习的加密流量分析研究成果进行全面的综述,并对未来的研究方向进行展望。

2

基于机器学习的加密流量分析框架


 加密流量分析的总体框架概述如图所示,其中包括流量采集、流量表达、模型构建和性能评估四个组成部分。

基于机器学习的网络加密流量分析技术综述

01

流量采集

流量数据采集是加密流量分析领域的重要环节,因为数据集是分析和检测的基础,我们可以在网络中的各个节点处捕获流量(例如交换机、路由器和网关)。近年来,出现了例如NS3的网络仿真技术用来模拟网络流量,同时,具有特殊结构的软件定义网络(Software-Defined Network, SDN)的出现也更方便流量数据的采集。

02

流量表达

流量表达(Traffic representation)是流量分析中至关重要的一步,对于不同应用场景,考虑到分析粒度不同,流量表达可能存在差异,选择一种合适的流量表达方式可以提高分析效率,减少开销。目前常用的流量表达方式可大致分为两类,一类是基于多种统计值的特征向量,例如数据包长度均值、数据包到达时间方差等;另一类是流量的原始序列,例如数据包长度序列、数据包方向序列等。

03

模型构建

机器学习的快速发展,为加密流量分析提供了大量的分析方法和新的研究思路。利用上一步中获得的流量表达,构建基于机器学习的加密流量分类器。我们将机器学习大致分为传统机器学习方法和深度学习方法,在加密流量分析中,这两类方法的主要差别在于前者需要人工提取的特征作为输入,基于大量的先验知识,而后者则支持端到端流分类。

04

性能评估

     为验证加密流量分析方法的有效性,多种验证方法和评价指标被应用到研究中,用于确认分析方法是否适合于预期场景。在评估方面主要考虑三类指标,分别为有效性衡量(例如精确率、查全率等)、开销衡量(例如训练开销、时间复杂度等)和泛化能力衡量(例如模型鲁棒性)。

3

加密流量分析场景


   本文将加密流量分析场景分为四类,分别为网络资产识别、网络特征提取、隐私泄露分析和网络攻击检测,不同场景对流量分类粒度和响应及时性的要求存在差异,考虑到加密流量分析中的流量特征提取和机器学习模型选择高度依赖于分析目标,如图所示,本文根据应用场景将相关文献进行分类,针对每个场景,按照数据集选择、特征提取、模型构建和评估指标等多个维度进行归纳和对比分析。

基于机器学习的网络加密流量分析技术综述

01

网络资产探测

      网络资产探测的识别目标为物理网络设备和操作系统等。一方面,随着连接到因特网上的网络设备逐渐增加,网络管理员越来越难以充分地掌握网络资产,需要借助自动化手段进行资产控制;另一方面,恶意攻击者可以通过识别设备的版本,准确地掌握设备漏洞,破坏用户通信安全。由于不同类型的网络设备和操作系统版本会导致通信流量产生不同特征,因此即使流量是加密的,也可以通过流量分析进行网络资产识别。按照具体分析目标可将该场景中流量分析技术分为网络设备探测操作系统识别


02

网络特征提取

      网络特征提取的是通过对传输流量分析以了解网络情况和服务交付质量等。视频流媒体对高带宽和低时延网络有较高需求,而运营商对传输质量的控制离不开用户体验感知。然而,随着SSL/TLS和QUIC等加密协议的采用,视频流服务产生的加密流量越来越多,隐藏了网络流量特征。为解决这一问题,许多研究从加密流量中提取信息以度量网络状况,例如终端用户QoE感知等,这些信息可以帮助网络服务提供商了解服务的交付质量,优化路由策略。本文按照QoE指标测量网络协议识别对该场景中技术进行总结分析探讨。

03

隐私泄露分析

隐私泄露分析主要是对加密流量可能泄露的信息进行分析。虽然流量加密的出发点为避免互联网用户隐私被窃听者破坏,但不同网站或应用程序的流量仍然存在差异,这增加了隐私泄露的可能性,例如分析受害者访问的是什么网站或使用什么应用程序,甚至正在进行的操作(例如在Gmail中发送、查看邮件)。从泄露的隐私类型出发,本文按照网络指纹识别应用指纹识别用户行为识别三方面对该场景中流量分析技术进行讨论。

04

网络攻击检测

网络攻击检测主要用于分析各种恶意软件和网络异常。近年来,针对个人电脑、手机和物联网设备的恶意软件快速增长,如WannaCry和Petya等。针对企业网、校园网、物联网和区块链网络等各种平台的网络攻击也越来越多。传统的异常检测方法通过扫描报文内容,基于特征库来识别恶意模式,由于采用了加密技术,基于有效载荷的异常检测方法失效。但是,由于异常行为与合法行为产生的流量在行为特征和统计特征上仍然存在差异,即使在加密场景下依然能实现网络攻击检测。按照具体检测目标,该场景可细分为恶意软件检测网络攻击检测

4

加密流量分析挑战和未来研究方向


 尽管相关文献在研究加密流量分析方法方面取得了重大成就,但在数据集构建、流量表达、分析模型构建和潜在对策等方面仍存在重大挑战。同时,也提供了前所未有的学习机会,以开发创新的方法来应对这些挑战。

01

高质量数据集构建

网络流量数据集是流量分析的一个关键组成部分,因为高质量的数据集可以在训练中发挥重要作用。目前部分研究场景缺少开源数据集,获取具有大量带标签数据作为基准测试集是相当具有挑战性的,同时,在构建数据集时候应考虑数据类型的多样性,以涵盖现实中的不同场景,如果没有足够多样的训练样本,即使是高效的模型也难以满足应用的需求。

02

流量表达方式提取

流量表达对于从加密流量中提取多维信息具有重要意义,通过提取最显著的特征提高有监督和无监督机器学习模型的准确性。提出加密流量的适当表示方法仍然是一项具有挑战性的任务,为了实现这一目标,应该仔细考虑和解决流量表达的有效性、鲁棒性、耗时性和可解释性等多个问题。

03

机器学习模型设计和优化

大多数现有的工作借助于机器学习技术来建立分析模型。流量分析问题通常被视为有监督或无监督分类问题,其中分类器可以大致分为传统机器学习和深度学习两类。为了提高分类器的性能,在模型选择时应同时考虑到模型有效性、鲁棒性和可迁移性等多项指标。

04

加密流量分析对抗方法

为应对加密流量分析方法,近年来研究者提出了许多对策。现有的解决方案主要集中在两个方面,分别为防止指纹攻击以保护用户信息,和混淆恶意流量以避开异常流量检测器。设计对策时,应同时考虑到防御效性和防御开销两项指标

5

参考文献

  //  

Meng Shen, Ke Ye, Xingtong Liu, Liehuang Zhu, Jiawen Kang, Shui Yu, Qi Li, Ke Xu. "Machine Learning-Powered Encrypted Network Traffic Analysis: A Comprehensive Survey," in IEEE Communications Surveys & Tutorials, 2022.


基于机器学习的网络加密流量分析技术综述

点击“阅读原文”

原文始发于微信公众号(赛博新经济):基于机器学习的网络加密流量分析技术综述

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年10月1日09:51:49
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   基于机器学习的网络加密流量分析技术综述http://cn-sec.com/archives/1319477.html

发表评论

匿名网友 填写信息