普林斯顿大学 | 自动流量分析的新方向

admin 2025年4月17日16:57:05评论3 views字数 3535阅读11分47秒阅读模式

普林斯顿大学 | 自动流量分析的新方向

原文标题:New Directions in Automated Traffic Analysis原文作者:Jordan Holland, Paul Schmitt, Nick Feamster, Prateek Mittal原文链接:https://doi.org/10.1145/3460120.3484758发表会议:ACM CCS笔记作者:宋坤书@安全学术圈主编:黄诚@安全学术圈

1、研究背景

现有的网络流量分析方法虽然广泛使用机器学习技术,但其过程中仍高度依赖于人工手动实现,这其中包括特征工程、模型选择以及参数的调整。这些过程不仅高度依赖于专业领域知识,且往往会随着网络环境的变化而变得过时。而且,手动特征工程过程容易遗漏复杂或非线性的重要特征,且每次面对新任务时都需要重新设计新特征。

为解决这一问题,本文提出了nPrintML系统(nPrint与AutoML的结合)。nPrint是一种标准化的数据包表示方式,以二进制形式编码每个数据包,同时保留其底层语义,使机器学习模型无需手动特征提取即可自动识别关键特征。而AutoML是一种现有的自动机器学习管道,通过nPrint与AutoML的结合,可以实现模型自动选择与参数优化,极大减少了人工干预。实验表明,nPrintML在操作系统识别、设备指纹识别、复杂应用识别等任务中表现优异,甚至超越了手工调优的最佳模型。

2、数据表示方法比较

在网络流量分类任务中,数据表示方式的重要性甚至不亚于模型的选择。尽管许多机器学习模型在图像、视频、音频等领域表现优异,但网络流量的数据结构复杂,难以直接适配这些机器学习模型。因此,构建良好的数据表示对于模型性能至关重要,理想的数据表示应满足四个设计要求:完整性(包含数据包头部全部信息)、固定大小(输入维度固定)、固有归一化(无需额外进行归一化处理)、字段对齐(各位置对应相同语义字段)。

本文探讨了三种数据表示方式:

  • 语义表示(Semantic Representation):语义表示按协议字段(如IP、TCP、UDP)提取特征。这种数据表示方式结构清晰且长度固定,但它不保留字段顺序,且需要大量专业领域知识,并存在手动选择特征的问题。

  • 朴素二进制表示(Naive Binary Representation):朴素二进制表示使用原始位图来表示数据,避免了手动特征工程,并保持了字段顺序。但由于不同协议长度和结构差异大,容易导致字段错位,这不仅影响模型性能,还降低了解释性。此外,相同位可能在不同协议中表示不同含义,容易造成混淆。

语义表示和朴素二进制的示例表示如下图:

普林斯顿大学 | 自动流量分析的新方向
  • nPrint(混合表示):nPrint是语义表示和朴素二进制表示的混合,通过协议字段内填充,使所有包的结构对齐,同时保留了字段顺序。nPrint可以满足数据表示的设计要求:完整性,可以表示任何数据包而不丢失信息;固定大小,每个数据包都以相同数量的特征表示;归一化,每个特征都只有-1、0和1这三种表示;对齐性,通过填充使字段位置固定。此外,nPrint还具备可扩展性,可处理不同协议,支持多包组合使用,适用于更复杂的分类任务。

nPrint的示例表示如下图:

普林斯顿大学 | 自动流量分析的新方向

3、nPrint的实现

nPrint使用C++实现,支持对Ethernet、IPv4、IPv6(固定头部)、UDP、TCP、ICMP及其负载在内的多种网络协议的处理,既可处理离线的PCAP与Zmap数据,也可实时抓取并分析在线流量,同时支持反编码操作(即将nPrint格式还原为PCAP)。nPrint以结构化的CSV结构输出,便于其与主流机器学习工具集成。nPrint中可用的完整配置选项如下图:

普林斯顿大学 | 自动流量分析的新方向

在Intel Core i7-8559U(4核2.7GHz)与32GB内存的环境下,nPrint单线程平均每分钟可处理约150万包,且其具有恒定的内存占用,仅取决于输出配置,资源占用较低。nPrint对每个数据包独立处理,因此支持并行。为验证其实时处理能力,研究人员在一条10 Gbps真实骨干链路上进行了概念验证评估。通过利用RSS技术将流量均衡分配至多个CPU核心,在商用服务器上运行16个并行nPrint进程,实现了对约8 Gbps速率的实时流量无丢包处理。

4、nPrintML系统的实现

nPrintML结合了nPrint与AutoML工具(本文采用AutoGluon-Tabular),旨在简化传统的流量分析机器学习流程。传统方法通常需要人工构造特征、选择模型并进行调参,而nPrintML则实现了自动特征提取、模型选择以及超参数优化。

AutoGluon-Tabular是一个自动化机器学习工具[1],具备特征选择、模型搜索与超参数优化功能,在多个公开数据集上表现优于其他AutoML工具。AutoGluon-Tabular集成多个性能良好的单一模型来实现更高的性能,它可以在每个任务中训练、优化并测试超过50个模型。为兼顾训练速度和整体预测质量,本文将预设参数设置为 high_quality_fast_inference_only_refit,并通过10折引导聚合(bagging)降低模型偏差。训练过程中不限制时间,将每个数据集划分为75%训练和25%测试,同时采用F1-macro作为评估指标以应对多分类任务中的类别不平衡问题。

在实现上,nPrintML使用Python编写,直接结合了nPrint和AutoGluon-Tabular AutoML,它可以通过单个流量跟踪或整个流量跟踪目录完成机器学习建模过程。nPrintML自动输出一系列性能指标,如平衡精度、ROC AUC与F1分数,以此来评估评估每个经过训练的模型。

nPrintML系统的整体架构如下:

普林斯顿大学 | 自动流量分析的新方向

5、案例研究

本文在八个案例上测试了nPrintML的性能,同时展示了nPrint的多功能性。nPrintML系统通过自动化特征提取和模型训练,展示了显著的优势,尤其是在不同的网络流量识别任务中。以下是其主要优点:

  • 无需手动特征选择:nPrintML能够自动从原始数据包中提取特征,省去了手动提取和表示特征的复杂过程,减少了传统方法中复杂手动处理的工作量。

  • 高效的分类性能:在设备指纹识别和操作系统识别任务中,nPrintML在多个测试中优于传统工具(如Nmap和p0f)。尤其是在操作系统识别上,nPrintML在仅使用少量数据包的情况下,提供了更高的召回率和更细致的识别能力。

  • 适应性强:nPrintML能够有效适应多种不同的网络环境和数据格式,比如在DTLS应用程序识别任务中,能在噪声环境下自动识别应用和浏览器对,且准确率极高。

  • 较快的训练与推理时间:与传统方法相比,nPrintML不仅能提供更高的F1分数,还能在较短的时间内完成训练和推理,特别适合需要快速响应的应用场景。

nPrintML在不同案例中与传统流量分析方法对比如下:

普林斯顿大学 | 自动流量分析的新方向

5、总结

本文提出了一种名为nPrint的网络流量表示方法及其自动化机器学习系统nPrintML,旨在简化网络流量分析任务中的特征提取与模型训练过程。nPrint能够将原始网络数据包转化为统一的向量表示,并保留协议语义信息,避免繁琐的手工特征工程。nPrintML在此基础上集成了AutoML工具,可自动完成模型选择与超参数优化,适用于设备指纹识别、操作系统检测、应用分类等多种任务,并在多个公开数据集上取得优异性能。

此外,nPrintML的实验结果显示其在准确率与召回率方面大多优于传统方法。其开源实现和数据集共享也为后续研究提供了良好基础。然而,该方法在处理复杂协议结构或加密流量方面的特征表达能力仍有待提升,同时在训练与推理效率、对特定协议支持范围以及对使用的AutoML工具的依赖方面仍存在局限性,限制了其在实时或大规模环境下的使用。未来研究可以围绕高效特征编码、协议适配能力和系统扩展性等方面展开进一步优化。

参考文献:

[1] Nick Erickson, Jonas Mueller, Alexander Shirkov, Hang Zhang, Pedro Larroy, Mu Li, and Alexander Smola. 2020. AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data. arXiv preprint arXiv:2003.06505 (2020).

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com

专题最新征文

原文始发于微信公众号(安全学术圈):普林斯顿大学 | 自动流量分析的新方向

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年4月17日16:57:05
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   普林斯顿大学 | 自动流量分析的新方向https://cn-sec.com/archives/3969987.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息