网络流量的自动化分析新方向

2022年4月13日23:05:59评论109 views字数 1266阅读4分13秒阅读模式

网络流量的自动化分析新方向

原文标题：New Directions in Automated Traffic Analysis

原文作者：Jordan Holland, Paul Schmitt, Nick Feamster, and Prateek Mittal

发表会议：2021 ACM Computer and Communications Security Conference

原文链接：https://arxiv.org/pdf/2008.02695.pdf

*笔记作者：Norns@SecQuan

*笔记小编：ourren@SecQuan

0x01 INTRODUCTION

在信息安全领域中，机器学习方法在流量分析中得到了广泛的应用。在应用机器学习方法时，许多方面决定着模型的表现，如特征提取，模型选择以及超参数调整。在本文中，作者提出了一种自动化应用机器学习机器实现流量分析目标的通用方法。这种方法依赖于对网络流量的统一表示，通过将不同流量分析任务中的特征表示为统一的形式，结合自动机器学习方法，可以实现对网络流量的自动化分析，而不依赖于大量的背景知识和人力成本。

本文的主要贡献在于：

为自动化机器学习提供了一种新的方向。提出一种统一的网络数据包表示方法nPrint。
将nPrint与自动机器学习工具相结合，提出nPrintML，实现了自动化流量分析。
使用nPrintML对8个不同的流量分析任务进行案例分析，实验的结果表明nPrintML可以更好地获取网络流量的特征信息，nPrintML获取的机器学习模型在性能上比传统特征工程得到的机器学习模型更加优越。

0x02 DATA REPRESENTATION

在应用机器学习方法时，对数据进行编码是非常重要的一环。为了实现上述提出的目标，数据编码需要满足以下要求：

Complete：由于nPrint实现的是一种统一数据编码，而不依赖于专家知识，所以需要提取数据包包头的所有信息。
Constant size per problem：对于机器学习模型，数据的输入需要保持一致。
Inherently normalized：机器学习模型在归一化后的数据上表现较好。
Aligned：不同数据包头的同一部分在编码后应该位于同样的位置。

Building a Standard Data Representation

在通用的网络流量表示方法中，主要有语义表示法和非齐二进制表示法，如图：

这些方法都无法很好地满足上述需求。为了解决这一问题，作者基于两种方法的思想，将两种方法进行混合，提出nPrint：

0x03 NPRINTML

作者将nPrint与自动机器学习方法相结合，提出nPrintML，实现了机器学习自动化的流程，nPrintML的全部流程如下：

0x03 CASE STUDIES

使用nPrintML，作者对8个流量分析场景进行实例分析，实验结果表明：nPrintML可以应用于不同场景，获得的模型较传统方法得到的模型性能更好：完整的实验结果如下：

安全学术圈招募队友-ing, 有兴趣加入学术圈的请联系secdr#qq.com

原文始发于微信公众号（安全学术圈）：网络流量的自动化分析新方向

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

网络流量的自动化分析新方向

0x01 INTRODUCTION

0x02 DATA REPRESENTATION

Building a Standard Data Representation

0x03 NPRINTML

0x03 CASE STUDIES

加拿大以国家安全为由打压中国企业，海康威视被迫关闭加拿大业务

【厂商不承认的漏洞】某设备接口未授权实现任意密码修改

企业级私有 docker 镜像仓库 Harbor

Docker常见指令大全，全背会爽到起飞！

害人害己：对跟踪软件说不

译文 | 捕获 RDP NetNTLMv2 哈希：攻击详细信息和操作指南

译文 | 实战 - 使用 krbrelayx 和 mitm6 通过 DNS 中继 Kerberos

国内电子数据取证相关标准及技术规范获取方法

调用Kubernetes API时可能会发现的问题

LastPyMile - 甄别软件包源代码和发布版代码的差异性

发表评论

在线咨询

微信