维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战

admin 2025年3月25日19:37:31评论7 views字数 3299阅读10分59秒阅读模式
维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战

原文标题:Network traffic classification: Techniques, datasets, and challenges原文作者:Ahmad Azab, Mahmoud Khasawneh, Saed Alrabaee, Kim-Kwang Raymond Choo and Maysa Sarsour原文链接:https://www.sciencedirect.com/science/article/pii/S2352864822001845发表期刊:Digital Communications and Networks, 2024笔记作者:孙汉林@安全学术圈主编:黄诚@安全学术圈

1、引言

这篇论文综述了网络流量分类的技术、数据集及面临的挑战。网络流量分类的核心在于理解流量与其对应的应用、协议或服务之间的关联,这对于合法监听、服务质量保障以及检测恶意流量至关重要。文章回顾了现有的分类技术,包括基于端口的识别、深度包检测(DPI)、结合统计特征的机器学习方法以及利用深度学习算法,并分析了它们的实现方式、优势和局限性。此外,论文还总结了其中使用的公开数据集,并探讨了当前面临的研究挑战。

维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战

2、技术发展历程

2.1 端口识别

端口识别是最早的网络流量分类方法,通过检查数据包的端口号来确定其协议类型。IANA(Internet Assigned Numbers Authority)为不同服务或协议分配了标准端口号。端口分为三类:系统端口(0–1023)、用户端口(1024–49,151)和动态端口(49,152–65,535)。端口识别的优点在于实现简单、计算资源需求低、分类速度快;缺点是许多应用使用伪装技术,将非标准协议流量传输在标准端口上,或者随机使用非标准端口,导致分类准确度降低。

2.2 深度包检测

深度包检测(DPI)通过分析数据包的负载内容来识别流量,与端口识别方法相比,DPI 不受端口伪装和随机化的影响。DPI 依赖签名库,匹配数据包内容中的特定模式(如字符、字符串、比特模式等)来分类应用流量。比较知名的 DPI 方法如下:

维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战

尽管 DPI 提高了分类准确度,但存在以下缺点:计算资源消耗大、无法识别加密流量(如 HTTPS)、可能违反隐私规定。DPI 更适用于未加密流量,但随着加密流量的比例越来越多,其有效性大受限制。

2.3 基于机器学习的检测方案

基于机器学习的流量分类方法是通过提取统计特征并结合机器学习算法对流量进行分类。主要有如下6步:

  • 数据收集:收集目标应用或协议的流量数据,用于后续模型训练与测试。
  • 流量表示:根据五元组(源/目的端口、源/目的IP、协议)组织原始流量,用于提取统计特征。
  • 特征工程:提取统计特征并通过特征选择优化特征子集。
  • 数据集准备:将特征提取与选择后的数据划分为训练集和测试集,用于模型训练与评估。
  • 模型构建:使用训练集构建分类模型,将网络流量分类为目标应用或协议,常用监督、无监督或半监督算法。
  • 模型评估:通过准确率、精确率、召回率、F值和ROC曲线等指标评估模型性能。
2.3.1 有监督学习
维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战

有监督学习在流量分类中的应用主要包括:

  • 全流量监测(Full Flow Monitoring) 基于整个数据流的统计特征进行分类,精度高,但计算开销大。

  • 子流量监测(Sub-Flow Monitoring) 通过分析流的前几个数据包进行早期分类,适用于实时性要求高的应用,计算开销小。

  • 未训练版本检测(Detecting Untrained Versions) 针对新版本或变种流量,通过训练多个分类器并结合策略,提高对未见过版本的检测能力。

基于有监督学习的相关研究如下:

维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战
2.3.2 无监督学习

无监督学习通过识别数据中的模式,将相似属性的实例分组,聚类是其中常用的方法,尤其在网络流量识别中。聚类通过特征相似性将数据分组,目标是高簇内相似性和低簇间相似性。

聚类方法通常分为以下几种技术:

  • 层次聚类:通过自底向上或自顶向下的方法聚类,计算复杂度较高,无需预先指定簇数量。
  • 贝叶斯聚类:基于概率将实例分配到类,挑战在于选择合适的概率分布。
  • 分区聚类:将数据分为K个簇,K-means是常用的分区聚类算法,广泛应用于网络流量识别。
维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战

K-means 算法通过将数据集分为 K 个簇来发现数据的模式,每个数据点只能属于一个簇。它通过最小化数据点与簇中心(质心)之间的欧几里得距离平方和来进行分组。

基于无监督学习的相关研究如下:

维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战
2.3.3 半监督学习

半监督学习结合了监督学习和无监督学习的优点,通过无监督算法标记未标记数据或进行特征选择,然后使用监督学习进行分类。它克服了单独使用监督或无监督学习的不足,通常能提供更精细的流量分类。

基于半监督学习的相关研究如下:

维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战

2.4 基于深度学习的检测方案

深度学习是一种基于神经网络(NN)的变体,具有多个隐藏层,常用于流量分类的常见方法包括多层感知器(MLP)、循环神经网络(RNN)、卷积神经网络(CNN)和自编码器(AE)。

维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战

MLP是一种前馈神经网络,但由于参数众多,训练起来比较复杂。RNN能够捕捉数据中的时间相关性,LSTM通过解决梯度消失问题,改进了RNN的学习能力。CNN主要用于捕捉空间相关性,广泛应用于图像识别领域。自编码器(AE)则用于特征压缩和降维,通常作为深度学习架构中的一部分,特别是在权重初始化和特征提取中。近年来,深度学习在网络流量分类中的应用逐渐增加,特别是利用原始流量数据进行分类,避免了繁琐的特征工程过程,提升了分类效率。

基于深度学习的相关研究如下:

维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战

3、数据集

数据集一般可分为私有和公开数据集,下表总结了11个常用的公开数据集。研究者选择数据集的标准包括流量的多样性、PCAP/ARFF格式的可用性、文献中的广泛应用及数据集的可获取性。这些数据集包括:Moore(2005年剑桥大学收集,包含HTTP、BitTorrent等,249个特征,ARFF格式)、USTC-TFC2016(私有数据集,涵盖恶意和良性应用流量)、ISCX(2016年加拿大收集,区分VPN与非VPN流量)、CTU-13(2011年CTU大学收集的僵尸网络流量)、MAWI(日本WIDE项目自2000年起收集的真实流量)、Auckland II(2000年奥克兰大学收集,涵盖HTTP、SMTP等协议)、UNIBS(2009年布雷西亚大学收集的3天TCP流量)、UJN(2013年金南大学收集的2天流量)、Anon17(2014-2017年NIMS实验室收集的匿名流量)、MIRAGE-2019(2017-2019年那不勒斯大学收集的安卓应用流量)、UNSW IoT(2016-2017年UNSW收集的26周物联网流量)以及MobileGT(2016-2018年智能手机流量,ARFF格式)。这些数据集涵盖多种应用场景,为分类模型的训练和评估提供支持。

维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战

4、总结

网络流量分类方法主要包括端口识别、DPI、监督学习、无监督学习、半监督学习和深度学习,各有优缺点,同时面临多种挑战。端口识别简单、资源需求低,但易受端口随机化影响,难以精准分类。DPI提供高准确率的应用级分类,但速度慢、资源消耗大,且难以检测加密流量和零日应用,同时涉及隐私问题。监督学习方法准确率高、粒度细,无需访问流量内容,但依赖训练数据,并需特征工程,受数据集质量影响较大。无监督学习不依赖标记数据,但准确率较低,难以适应复杂流量环境。半监督学习结合有监督与无监督方法的优点,提升准确率,但计算资源消耗大。深度学习避免了特征工程,分类精度高,但训练依赖大量数据和计算资源。此外,研究者还需应对恶意流量伪装、数据集收集与标记困难、不平衡数据集导致的模型偏倚,以及对抗样本攻击对机器学习分类器的干扰等挑战,这些因素共同影响分类器的整体性能。

维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战
安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com

专题最新征文

原文始发于微信公众号(安全学术圈):维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年3月25日19:37:31
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   维多利亚理工学院 | 网络流量分类的技术、数据集以及面临的挑战https://cn-sec.com/archives/3883274.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息