原文标题:Seeing Traffic Paths: Encrypted Traffic Classification With Path Signature Features原文作者:Shijie Xu, Guanggang Geng, Xiaobo Jin, Dongjie Liu and Jian Weng原文链接:https://ieeexplore.ieee.org/abstract/document/9786755发表期刊:IEEE Transactions on Information Forensics and Security, 2022笔记作者:孙汉林@安全学术圈主编:黄诚@安全学术圈
1、引言
这篇论文提出了一种新的加密流量分类方法,称为ETC-PS(Encrypted Traffic Classification with Path Signature)。该方法通过构建会话数据包长度序列来表示客户端和服务器之间的交互,从而构建流量路径。接着,通过对路径进行变换,提取其结构信息,并最终计算多尺度路径签名,作为独特的特征来训练传统的机器学习分类器。ETC-PS方法的优点在于具有高度的鲁棒性、低训练开销,并且能在HTTPS/1、HTTPS/2、QUIC、VPN、非VPN、Tor和非Tor等多种流量类型上表现出色。实验结果表明,ETC-PS在准确率、F1分数、时间复杂度和稳定性方面优于现有的最新方法。
本文贡献如下:
-
首次提出了使用路径签名特征(PSFs)解决加密流量分类(ETC)问题; -
提出了基于会话包长信息的流量路径构建方法; -
提出了流量路径变换方法,通过为原始路径添加额外坐标,揭示更多特征; -
提出了基于路径签名特征、流量路径变换和随机森林分类器的新ETC方法,取得了与当前最先进方法相当的结果。
2、路径签名
Path Signature最早由Chen [1]引入,旨在研究分段正则路径,并提出了相应的数学理论。自90年代中期,Terry Lyons [2]发展了该理论,近年来在数学界获得了广泛关注。路径签名通过迭代积分的方式捕捉路径的不同层次的变化信息,将路径在不同维度的行为及其相互关系通过高阶积分表示出来,从而能够为机器学习和数据分析提供丰富的序列数据特征表示。路径签名特征(Path Signature Feature, PSF)在多个领域取得了成功应用,包括机器学习、模式识别和数据分析。例如,在金融数据流中,PSF被用来进行精确预测;在精准医学领域,PSF帮助区分精神障碍;在手势识别中,PSF被用于骨架数据的动作识别;在手写识别领域,PSF作为CNN特征图用于大规模在线手写字符识别。这些展示了其作为序列数据有效特征表示的价值。
路径签名的3个重要特征如下:
-
唯一性:路径签名能够唯一地确定路径的几何特征,前提是路径中没有“树状”部分,即没有完全重合的轨迹。对于加密流量数据(通常为一维路径),可以通过引入一个单调递增的维度(例如时间)来避免路径退回自身的问题,从而确保路径签名能够准确区分并分类不同的流量。
-
重参数化不变性:路径的重参数化是通过不同的采样率对路径进行采样,改变路径的参数化变量。路径签名具有不变性,可以有效过滤由重参数化引起的差异,这对于机器学习中的分类任务非常有利,因为它能确保分类结果不受采样频率等变化的影响。
-
长度变化下的固定维度:路径签名的维度仅取决于截断级别(k),与路径的长度无关。这使得即使加密流量样本的长度不同,我们依然能够提取出固定维度的特征,从而减少对流量采集条件的依赖,满足传统机器学习分类器对固定长度输入的要求。
3、ETC-PS方案
该解决方案的整体工作流程如下:
-
流量收集阶段:在此阶段,一个中间的第三方ISP会监控客户端与服务器之间的流量,并生成数据包序列。当客户端通过不同的加密协议(如HTTPS、QUIC、Tor、VPN)访问服务器时,ISP所观察到的就是这些数据包序列。
-
特征提取阶段:在此阶段,首先计算数据包序列中每个数据包的长度,生成数据包长度序列。通过将负长度表示上行数据包,正长度表示下行数据包,从而构建流量路径。随后,对流量路径进行变换,并提取路径签名特征(PSFs)。
-
流量分类阶段:最后,利用生成的PSFs训练传统的机器学习分类器,如随机森林(RF)、决策树(DTree)、高斯朴素贝叶斯(GNB)和k近邻(k-NN),以实现加密流量分类。
因为流量收集阶段和流量分类阶段是一些常规操作,所以接下来着重介绍特征提取阶段。
3.1 流量路径构造
加密流量分类旨在将特定流量与相应类型(如域名或应用类型)关联起来,这些加密流量是通过不同的加密通信协议生成的。客户端与服务器之间的双向交互行为是区分不同类型加密流量的关键特征。当客户端与服务器建立连接时,客户端通常会向服务器发送请求,请求所需的资源。该过程主要包括三个阶段:
-
握手阶段:在此阶段,上行和下行数据包交替传输。对于相同类型的传输协议,生成的数据包序列在数据包长度、数量和方向上非常相似。 -
上行主导阶段:在此阶段,主要传输上行数据包。通常,包含控制指令的上行数据包会发送给服务器,邀请其共同提升数据传输效率。 -
下行主导阶段:在此阶段,主要传输下行数据包。这些下行数据包用于传输客户端所需的内容。
总结而言,流量路径构造就是使用正负数分别表示下行和上行数据包的长度,确保表达客户端与服务器的双向交互。
3.2 路径签名特征提取
路径签名特征提取通过计算流量路径转换
后的五维流量路径来实现,其中包括对路径进行层次二进制窗口变换。这种变换能够在不同的尺度上捕获信息,生成多尺度的路径签名特征(PSFs)。通过将数据包长度序列进行一系列变换,如路径分解、累积求和、基点变换和时间引入变换,最终提取出用于加密流量分类的特征。
具体地,流量路径转换包含如下4部分:
-
路径分解变换:通过分解流量路径为上行和下行子路径,提升路径签名特征的效率。 -
累积求和变换:通过累积求和操作揭示流量路径的内在模式。 -
基点变换:去除路径的平移不变性,更好地适应加密流量分类任务。 -
时间引入变换:确保路径签名具有唯一性,提升分类准确性。
下表是从"www.google.com"网站提取的序列:
4、实验结果与评估
该部分将从数据集、机器学习算法和实验结果3部分展开。
4.1 数据集
数据集包括六个公开的、具有代表性的网络流量数据集,涵盖了HTTPS、VPN、Tor、HTTP/2和QUIC等不同加密协议的流量,用于评估ETC-PS方法的性能。
4.2 机器学习算法
本文通过对比四种常见的机器学习算法,并对其进行调参优化,最终选择RF为最终分类算法。
4.3 实验结果
封闭世界实验结果:开放世界(部分)实验结果:
References
[1] Chen, Kuo-Tsai. "Integration of paths--A faithful representation of paths by noncommutative formal power series." Transactions of the American Mathematical Society 89.2 (1958): 395-407.[2] Lyons, Terry J. "Differential equations driven by rough signals." Revista Matemática Iberoamericana 14.2 (1998): 215-310.
安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com
专题最新征文
-
期刊征文 | 暗网抑制前沿进展 (中文核心)
-
期刊征文 | 网络攻击分析与研判 (CCF T2)
-
期刊征文 | 域名安全评估与风险预警 (CCF T2)
原文始发于微信公众号(安全学术圈):暨南大学 | 洞察流量路径:基于路径签名特征的加密流量分类
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论