东南大学 | Early-MFC:基于早期网络流量的多视图三元组网络对Tor的增强流关联攻击

admin 2025年4月7日00:41:54评论6 views字数 6729阅读22分25秒阅读模式
东南大学 | Early-MFC:基于早期网络流量的多视图三元组网络对Tor的增强流关联攻击

原文标题:Early-MFC: Enhanced Flow Correlation Attacks on Tor via  Multi-view Triplet Networks with Early Network Traffic原文作者:Yali Yuan, Qianqi Niu, Yachao Yuan原文链接:https://doi.org/10.48550/arXiv.2503.16847笔记作者:宋坤书@安全学术圈

1、研究背景

Tor是最广泛使用的匿名网络之一,它将用户的流量通过多个志愿者运营的中继节点进行加密和传输,从而隐藏用户的IP地址和浏览活动。然而,随着攻击技术的进步,Tor网络的去匿名化变得越来越可行,特别是流量关联攻击技术的出现加速了这一过程。流量关联攻击通过观察和分析网络流量特征(如发送时间和数据包大小)以匹配客户端发送的流量和服务器接收的流量,从而揭示用户身份或监控用户行为。

本文研究了基于早期网络流量的流量关联攻击,即在流量数据传输过程中尽早进行流量关联,以缩短识别时间。传统的流量关联攻击方法主要采用非机器学习技术,这通常需要手动选择和调整特征,因此需要大量的数据来确保特征的有效性和模型的准确性。近年来,随着深度学习的发展,尤其是卷积神经网络(CNN)在流量相关性方面的应用,像DeepCorr、DeepCoFFEA这些模型的使用提高了识别和区分关键特征的能力,最终提升了准确率,但仍需收集大量流量数据,难以满足实时处理的需求。

为解决这一问题,本文提出了Early-MFC框架,这是一种基于多视图三重网络的流量关联攻击框架,旨在通过集成多视图数据和利用多种模型架构,实现高精度的早期流量关联分析。该框架利用CNN提取载荷的空间特征,长短期记忆网络(LSTM)捕获组间时延(IPD)的时间特征,并通过度量学习和对比学习融合嵌入表示,使相似流量更接近、不同流量更远离。实验结果表明,Early-MFC在更少的数据包下达到了比现有方法更高的准确率(Accuracy)和真正率(TPR),同时降低了假正率(FDR),为快速响应和实时处理场景提供了有效的技术支持。

2、流量关联攻击框架

本文提出了Early-MFC和Early-MFC+这两个用于早期和超早期网络流量场景的流量关联框架。

2.1 Early-MFC流量关联攻击框架

Early-MFC框架包含三个主要组件:数据预处理模块、多视图特征提取模块和最终裁决模块,该框架结构如下图,其中分别对应三个组件。

东南大学 | Early-MFC:基于早期网络流量的多视图三元组网络对Tor的增强流关联攻击
2.1.1 数据预处理模块

数据预处理模块的主要是对网络流量数据进行分段和转换,以便后续分析。首先,通过对pcap文件进行切片操作,将网络流量分解为多个数据段,并将其转换为多视图表示。这种方法可以捕捉流量的不同特征,从多个角度理解流量模式。具体来说,该模块提取传输层有效载荷的初始部分(RAW)和协议头部的关键字段(HDR),包括TCP窗口大小、数据包方向和包间时延(IPDs)。RAW数据主要保留流量的本地特征,而IPDs数据用于提取流量的全局统计特性。

为确保输入维度的一致性,系统对数据进行截断和零填充。这种归一化操作不仅减少了输入偏差,还增强了特征提取的稳定性。RAW采用每个数据流中的前10个数据包的前80字节用作输入,而IPDs则提取每个数据流中前200个数据包的时延信息。通过结合这两种数据视图,模型能够更全面地捕捉网络流量的特征,提高检测和分类的准确性。

2.1.2 多视图特征提取模块

预处理后的多视图数据被输入到精心设计的模型架构中。每个视图的数据都由对应的子模型进行优化,子模型独立运行并生成各自的输出。然后,这些输出被输入融合层,整合不同视图的预测结果,以充分利用多源数据,即使在数据量有限的情况下仍能有效学习网络流模式。模型优化过程中采用三元组损失(triplet loss)进行训练。

多视图特征提取模块包括三个子模块:RAW视图训练模块、IPDs视图训练模块和特征融合模块。

  • 第一视图(RAW)训练模块: RAW视图训练模块采用1D CNN提取流量数据的深层特征表示。1D CNN通过卷积层、激活函数(ELU/ReLU)、池化层(MaxPool1d)和Dropout层,逐层提取高层次特征。 在具体实现中,卷积层的通道数逐层增加,以逐步提取更丰富的特征表示。池化(pooling)层的核大小和步长固定,但填充参数由自定义函数动态计算。随后,经过扁平(Flatten)层和全连接(Linear)层将特征映射到高维空间,以获得最终的RAW视图特征表示
  • 第二视图(PIDs)训练模块: IPDs视图训练模块利用双向长短时记忆网络(BiLSTM)处理数据包到达时间间隔(IPDs)的时序模式。由于IPDs具有时间依赖性,BiLSTM能够有效捕捉其短期和长期依赖关系,从而提升流量分析能力。 首先,使用嵌入(Embedding)层对IPDs数据进行编码,生成固定维度的向量表示,并输入到BiLSTM网络。该网络采用双向结构,以同时处理前向和反向序列数据,增强特征学习的全面性。同时,在BiLSTM层之间加入Dropout层以防止过拟合。最终,IPDs视图特征表示由LSTM计算得到,并通过全连接层进行映射:
  • 特征融合模块: 特征融合模块对RAW视图和IPDs视图模块的特征进行拼接,并通过卷积层和全连接层进一步优化融合特征,从而增强流量分类的准确性。具体而言,融合特征先经过卷积层提取高级特征,随后输入全连接层,最终生成分类结果(其中FC为全连接层,Conv为卷积层):

该模块实现了多视图特征的融合,其中 RAW 视图 关注数据包的细粒度内容,而 IPDs 视图 强调数据包传输的时间模式。通过融合不同模态的特征,本模型能够从多个角度表征网络流量,提高分类的准确性和鲁棒性。

本文采用Triplet Loss(三元组损失)作为核心损失函数,优化模型的特征嵌入表示能力。Triplet Loss通过构造三元组 (anchor, positive, negative)进行优化,其中Anchor(锚点样本)代表当前样本,Positive(正样本)为与 Anchor语义相似的样本,Negative(负样本)为与Anchor语义不相似的样本。

损失函数的目标是最小化Anchor与Positive之间的距离,同时最大化Anchor与 Negative之间的距离,从而使不同类别的样本在特征空间中彼此分离,计算公式如下:

其中,代表样本之间的距离,是锚点样本,是正样本,是负样本,代表设定的最小间隔。

2.1.3 仲裁模块

仲裁模块借鉴DeepCoFFEA[1]的方法,通过投票仲裁+贝叶斯估计降低假正率(FPR)。数据流被划分为k个时间窗口,每个窗口计算余弦相似度作为相关性指标,并与动态阈值进行比较。

模块采用投票仲裁机制,仅当大多数窗口判定一致时,才输出最终结果。当投票机制无法稳定判定时,引入贝叶斯估计进行优化。具体步骤如下:

  • 计算所有窗口的余弦相似度分布,并设定动态阈值
  • 若某窗口的最大概率超过阈值,则判定为相关流量;
  • 通过贝叶斯算法计算最终概率分布,选择最大概率类别作为最终判定结果。

通过结合投票机制与概率优化,有效提升了流量相关性检测的准确性,降低了误报率(假正率),并增强了模型的鲁棒性。

2.2 Early-MFC+流量关联攻击框架

为了应对专门环境中对超早期网络流量相关性的实时需求,本文在Early-MFC+中提出了一种新型特征重建网络,它替换了Early-MFC中的多视图特征提取模块,该方法能在每个流中仅使用10%的数据包,就能实现与Early-MFC模型相当的高精度流量相关性。该网络利用有效载荷数据来重建IPDs特征,确保在流量数据有限时依然保持高准确率。

在具体实现中,首先将有效载荷数据数据和IPDs数据作为两种独立的模态进行特征提取,分别通过CNN和LSTM提取各自的特征。然后,通过引入残差块(Residual Block)增强特征表示,进一步提升模型处理复杂数据模式的能力。经过处理后,残差块输出的特征与原IPDs特征融合,并输入RNN进行进一步的特征提取,最终获得重建后的IPDs特征。最后,特征被输入至整合层,进行1D卷积和全连接层处理,完成流量相关性的最终输出。特征重建网络结构如下:

东南大学 | Early-MFC:基于早期网络流量的多视图三元组网络对Tor的增强流关联攻击

通过实验证明,在仅使用Early-MFC所需数据包的10%时,Early-MFC+模型仍能实现93%的流量相关性准确度。

3、实验设置

3.1 数据集

本文参考DeepCorr[2]数据集的采集方式,使用Tor 0.4.8.11版本,在多个隔离虚拟机上运行Tor客户端并收集流量。实验过程中,随机选择Alexa Top 20000中的6000多个网站作为目标,使用990条不同的Tor电路进行访问,并采用tcpdump分别在客户端和SOCKS代理服务器上捕获入口和出口流量。为了增加流量的匿名性,本文使用obfs4混淆流量,并在数据采集过程中切换IAT模式,以模拟真实的网络用户行为。此外,数据采集总共历时六周,每个网站访问三次,最终得到39426对数据样本。

数据集的划分采用随机采样策略,80%用于训练,20%用于测试。此外,本文构建了三个子数据集:D1(10382个样本)、D2(25670个样本)和D3(37680个样本),以评估模型的泛化能力。为保持数据的原始分布,研究人员未对数据进行预处理或清理,以便评估模型在实际环境中的表现。所有实验基于PyTorch框架,并在配备32GB显存的NVIDIA V100 GPU上进行训练,以确保模型的计算效率和可扩展性。最终,通过随机采样、不同时间段的数据采集以及多样化的Tor电路使用,确保了数据集的多样性和实验的公平性。

3.2 超参数选择

超参数选择对模型的学习能力和最终预测精度至关重要。本文采用随机搜索策略,通过随机采样探索超参数空间,并结合交叉验证,确保模型在训练集上的性能最优,同时对未知数据具有良好的泛化能力。优化过程中,主要调整学习率、优化器类型、训练轮数以及模型架构相关参数(如CNN或LSTM的层数和神经元数量)。最终,研究人员选择了一组最优超参数,确保模型在流量相关性分析任务中达到最佳性能。超参数的选择如下:

东南大学 | Early-MFC:基于早期网络流量的多视图三元组网络对Tor的增强流关联攻击

3.3 攻击方法比较和评估指标

本文对比了所提出的攻击模型与现有的四种流量相关性攻击方法(DeepCorr、DeepCoFFEA、Compressive Analysis和Raptor),并从多个维度评估其在不同数据集上的表现。评估指标包括真阳性率(TPR)、假阳性率(FPR)和准确率(Accuracy),以衡量模型的检测能力、误报率及整体性能。

4、实验结果

4.1 Early-MFC与现有方法的比较

本文对比分析了Early-MFC方法与现有方法的差异。对于公开提供代码的方法,研究人员在相同的实验环境下直接复现其结果;对于未公开代码的方法,研究人员根据论文描述自行实现相应模型,并严格遵循原始算法和流程,以确保公平性。此外,为了促进研究透明性和可复现性,本文公开了代码和数据集,以便其他研究者验证本文的结果并利用数据集进行进一步研究。

实验结果表明,Early-MFC在准确率和TPR上均优于现有方法。在数据包数量有限的情况下,Early-MFC仍能保持显著的性能优势。例如,在D1数据集上,Early-MFC的准确率达到98.42%,在D2和D3数据集上分别稳定在97.40%和97.90%,明显优于现有的其他方法。同时,其TPR接近99%,而FPR始终保持在极低水平(0.01%-0.16%),远低于Raptor和CTA等方法。此外,随着负样本数量增加,Early-MFC的性能下降最小,证明了其在流量关联分析任务中的高效性和实用性。不同模型的性能对比如下:

东南大学 | Early-MFC:基于早期网络流量的多视图三元组网络对Tor的增强流关联攻击

Early-MFC模型的卓越性能归因于多视图特征融合策略,该策略能够同时捕捉载荷内容的局部特征和时间动态的全局特征,在早期网络流量中保持高辨别能力。此外,Early-MFC通过对比学习和度量学习的联合优化进一步增强了特征表示的鲁棒性,使其即使在高比例负样本的环境下仍能有效区分不同流量行为模式。

4.2 Early-MFC+的性能

本实验在D3数据集上模拟了不同数据包数量下的流量场景,分别使用Early-MFC 需要数据包数量的10%、50%和90%进行实验,以评估模型在超早期流量关联条件下的鲁棒性和适应性。实验结果表明,当数据包数量为180(90%)时,Early-MFC+ 的性能仅比Early-MFC低1%。当数据包数量减少到100(50%)时,流量关联性能略有下降,降低约1%,表现出较强的稳定性。而当数据包数量进一步减少到20(10%)时,性能下降约3%,但模型仍保持90%以上的准确率,证明其在极端条件下仍具有较好的识别能力。Early-MFC+实验效果如下:

东南大学 | Early-MFC:基于早期网络流量的多视图三元组网络对Tor的增强流关联攻击

实验结果验证了Early-MFC+的有效性,并进一步强调了多视图学习在流量关联分析中的优势。该模型在面对超早期流量时依然能够整合和利用有限的数据包信息,提高预测准确性,展现出较强的鲁棒性和适应性,为实际网络安全应用提供了有力支持。

4.3 消融分析

在D3数据集上进行消融实验,评估多视图特征融合的重要性。实验对比完整的多视图模型、仅使用第一视图(ARW)和仅使用第二视图(IPDs)的模型,结果显示多视图模型的准确率达98.42%,明显优于两种单视图模型(91.09%和70.15%)。理论上,单视图数据信息有限,易受噪声和过拟合影响,而多视图融合能更全面捕捉流量特征,提高泛化能力,实验结果表明,即使在有限的数据包下,多视图融合仍能利用不同视图的信息互补性,保持高精度的流量关联分析能力。

4.4 敏感性分析

4.4.1 敏感性分析(第二视图的选择)

实验测试了不同特征(四元组:传输层有效载荷的字节数、TCP窗口大小、数据包到达之间的时间间隔-IPD和数据包的方向)作为第二视图的效果,发现IPDs结合LSTM网络的方案准确率最高,超越了传统的四元组特征集(提高1.6%),并在FPR方面表现更优。LSTM通过时间序列建模,能更好地学习IPDs的时序特征,增强流量关联分析的能力。

4.4.2 敏感性分析(仲裁数量)

通过改变参与仲裁的模型数量,即调整贝叶斯仲裁机制的阈值(1-5)来评估模型性能。实验结果表明,仲裁阈值设为1时效果最佳,与理论分析一致,进一步验证了贝叶斯方法对提升模型分类性能的有效性。

5、本文贡献

  • 提出Early-MFC流量关联攻击框架:基于多视图三元组网络,提取早期流量的多维特征并映射至共享嵌入空间,以有效区分相关与非相关流。该框架降低了模型训练成本,同时最大限度地降低了流量数据收集与存储需求。

  • 提出Early-MFC+增强特征重构网络:利用有效载荷数据构建嵌入的特征表示,使其在仅使用前10个数据包时仍能保持高效、稳健的流量关联攻击能力。

  • 对比多种流量关联攻击方法:Early-MFC在流相关攻击中表现非常出色,与DeepCoFFEA相比,EarlyMFC将数据包需求减少了80%。而Early-MFC+在最新数据集上到达了93%的准确率,与DeepCoFFEA相比,数据包需求减少了99%。

参考文献:

[1] S. E. Oh, T. Yang, N. Mathews, J. K. Holland, M. S. Rahman, N. Hopper, M. Wright, Deepcoffea: Improved flow correlation attacks on tor via metric learning and amplification, in: 2022 IEEE Symposium on Security and Privacy, IEEE, 2022, pp. 1915–1932. 

[2] M. Nasr, A. Bahramali, A. Houmansadr, Deepcorr: Strong flow correlation attacks on tor using deep learning, in: Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security, 2018, pp. 1962–1976.

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com

专题最新征文

原文始发于微信公众号(安全学术圈):东南大学 | Early-MFC:基于早期网络流量的多视图三元组网络对Tor的增强流关联攻击

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年4月7日00:41:54
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   东南大学 | Early-MFC:基于早期网络流量的多视图三元组网络对Tor的增强流关联攻击https://cn-sec.com/archives/3921874.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息