原文标题:Detecting Tor Bridge from Sampled Traffic in Backbone Networks原文作者:Hua Wu, Shuyi Guo, Guang Cheng and Xiaoyan Hu原文链接:https://www.ndss-symposium.org/ndss-paper/auto-draft-145/发表期刊:NDSS, 2021笔记作者:孙汉林@安全学术圈主编:黄诚@安全学术圈
1、引言
目前关于Tor网桥检测的研究大多基于小规模完整流量数据,无法适用于骨干网中大规模、低占比的实际环境。因此,本文提出了一种基于流量采样的,针对骨干网络中obfs4网桥的检测方法。作者设计了基于计数布隆过滤器(Count Bloom Filter, CBF)的嵌套计数布隆过滤器(Nested Count Bloom Filter, NCBF)结构,从采样流量中提取14个可用于识别obfs4网桥的特征。实验结果表明,即使Tor流量仅占0.15%,在64:1的采样率下,F1分数仍能达到0.9左右。
本文主要贡献如下:
-
提出NCBF结构用于高效存储采样包统计信息; -
从采样后的流量中提取14个用于检测obfs4网桥流量的特征; -
在真实的混合网络流量环境下验证了方法的有效性。
2、方案设计
上图展示了obfs4网桥检测的整体流程。首先进行特征工程,从采样流量中筛选用于检测网桥的特征;然后训练用于识别网桥的机器学习模型;接着在骨干网络上进行流量采样,使用NCBF结构记录采样包的统计信息,并计算特征值;最后将这些特征输入训练好的模型,识别出obfs4网桥。
2.1 特征工程
由于骨干网流量过于庞大,本文通过流量采样来减少待处理的数据量,因此必须选择在采样后仍然保持稳定的特征。最终,作者选取了14个检测特征,存储了12项统计信息,具体如上图所示。尽管采样后流量大大减少,但仍需处理大量数据包的统计信息,因此,必须采用合适的采样方法和高效的存储结构,以降低资源消耗,确保特征选择不受采样过程的影响。
2.2 流量采样
在大规模骨干网中,处理完整流量既困难又会消耗大量资源,因此流量采样被广泛应用于网络管理中,特别是在入侵检测和SDN测量领域。流量采样方法主要分为基于数据包的采样和基于流的采样,其中基于数据包的采样技术包括系统采样、随机n-out-of-N采样和均匀概率采样。与其他两种采样技术相比,系统采样具有较小的时间和内存开销,因此在进行Tor网桥检测时,作者选择了系统采样方法,即只需根据采样间隔保存数据包,后续实验也验证了这种方法的有效性。
2.3 NCBF存储结构
为了高效存储数据包统计信息,计算特征向量,本文提出了基于计数布隆过滤器(CBF)的嵌套计数布隆过滤器(NCBF)。与传统的CBF不同,NCBF将每个计数单元扩展为一个计数块,每个计数块内部是一个CBF,从而能够同时记录多个统计信息。在插入过程中,多个统计信息通过独立的哈希函数映射到不同的计数块中。查询时,如果所有映射的计数块都记录了统计信息,则认为该元素存在。
与CBF相比,NCBF能够一次性存储多个统计信息,但仍然存在假阳性概率。为了避免哈希冲突影响存储效率和准确性,并确保obfs4网桥流量的特征能够准确提取,NCBF的内存大小和参数需要经过精确调试。通过实验,作者选择了合适的参数配置,以确保在保证精度的同时,能够高效处理流量数据。
3、实验设计与分析
3.1 数据集
为了验证方案的有效性,作者使用的实验数据包含了公开流量数据集和从已知obfs4网桥收集的自建流量数据集。公开流量数据集来自2019年4月9日由MAWI工作组[1]在东京的samplepoint-G收集的15分钟骨干网流量数据,包含超过1亿个数据包,其中72.93%是TCP包。obfs4网桥流量则通过HTTPS和邮件方式获取网桥地址,使用Wireshark进行流量收集,上图展示了Tor流量收集的具体拓扑结构。
3.2 实验结果
本文对比了提出的Tor桥接检测方法与其他方法的优缺点。与[3]提出的Tor桥接检测方法相比,本文方法更具实用性。方案[3]依赖于不断扩展桥接集,这会增加存储和计算压力,并且需要使用完整流量进行实验。而本文方法基于骨干网,首先通过流量采样打破流量的连续性和相关性,同时考虑到Tor流量在实际网络中的低比例,进行不同流量比例下的实验验证其可行性。此外,本文方法更适应于处理大规模流量,并能有效避免基于桥接元组相关性的高资源消耗。研究[4]中的基于随机性和时序的检测方法对流量的完整性和连续性要求较高,在实际网络中较难应用。
此外,本文还通过与Soleimani等人[2]的方法进行详细对比实验,结果表明在Tor流量比例极低(0.01%、0.05%)的情况下,Soleimani的方法未能有效检测到Tor桥接流量,可能因为其未考虑低占比流量的情况。其次,虽然在某些流量比例下,Soleimani的方法精确度较高,但召回率较低。
4、总结
本文提出了一种在骨干网络中检测Tor网桥节点的方法。与其他方法相比,本文方法通过流量采样减少了需要处理的数据量,并设计了一种新的存储结构——嵌套计数布隆过滤器(NCBF),用于记录数据包统计信息。考虑到Tor流量在骨干网中的比例较低,实验通过将公开骨干网流量数据集与不同比例的Tor流量混合来验证该方法的可行性。实验结果表明,当Tor流量仅占0.15%时,检测结果的F1分数保持在0.9左右,召回率稳定在95%以上。
References
[1] Cho, Kenjiro, Koushirou Mitsuya, and Akira Kato. "Traffic data repository at the {WIDE} project." 2000 USENIX Annual Technical Conference (USENIX ATC 00). 2000.[2] Soleimani, Mohammad Hassan Mojtahed, Muharram Mansoorizadeh, and Mohammad Nassiri. "Real-time identification of three Tor pluggable transports using machine learning techniques." The Journal of Supercomputing 74.10 (2018): 4910-4927.[3] Yang, Ming, et al. "How to block Tor’s hidden bridges: detecting methods and countermeasures." The Journal of Supercomputing 66 (2013): 1285-1305.[4] He, Yongzhong, Liping Hu, and Rui Gao. "Detection of tor traffic hiding under obfs4 protocol based on two-level filtering." 2019 2nd International Conference on Data Intelligence and Security (ICDIS). IEEE, 2019.
安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com
专题最新征文
-
期刊征文 | 暗网抑制前沿进展 (中文核心)
-
期刊征文 | 网络攻击分析与研判 (CCF T2)
-
期刊征文 | 域名安全评估与风险预警 (CCF T2)
原文始发于微信公众号(安全学术圈):东南大学 | 利用骨干网中的采样流量检测Tor网桥
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论