谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

admin 2025年5月29日09:55:14评论7 views字数 10733阅读35分46秒阅读模式

近日,“谛听”团队杨道青博士撰写的论文《Patty: Pattern Series-Based Semantics Analysis for Agnostic Industrial Control Protocols》(Patty: 基于模式序列的未知工业控制协议语义分析)被国际期刊《IEEE Transactions on Information Forensics and Security》录用。(点击文后“阅读原文”可获取论文)

基于流量追踪的未知工业控制协议 (Industrial Control Protocols,ICPs) 逆向工程对于工业控制系统的安全分析具有重要意义。作为协议逆向工程的核心环节,字段语义分析尤为关键。目前,已有方法主要聚焦于通用协议的语义类型,采用基于知识的启发式分析。然而,这类方法不仅依赖过多先验假设,还面临ICP语义知识匮乏的挑战。为此,本文首次提出了字段模式序列的概念,并设计了全新的用于推断未知 ICP 字段语义类型的分类框架。具体而言,本文首先给出了模式序列的形式化定义,设计面向训练数据构建的字段模式序列生成算法;随后搭建了字段语义分类模型,自动提取已知协议中的语义特征,从而预测未知协议的语义类型。最后提出概率最大化选择算法,实现语义推断结果的优化。通过开展涵盖五类主流工业控制协议(及其混合协议)的大规模实验,验证了所提方法的有效性。评估结果表明,本文所提方法在字段语义识别方面显著优于基准方法,F1 得分达到 ≥90.8%。

《IEEE Transactions on Information Forensics and Security》是IEEE旗下的一本权威学术期刊,中国计算机学会(CCF)推荐A类期刊,涵盖了与信息取证、信息安全、生物识别、监控和包含这些功能的系统应用相关的科学、技术和应用,该期刊以其高质量的学术论文和严格的审稿流程闻名,吸引了来自全球范围内的顶尖研究者和学者的投稿。其发表的论文通常具有创新性、前瞻性和实用性,为学术界和工业界提供了一个重要的交流平台。

影响因子:

6.3

文章引用方式:

D. Yang, Yao Y et al., "Patty: Pattern Series-Based Semantics Analysis for Agnostic Industrial Control Protocols," in IEEE Transactions on Information Forensics and Security, doi: 10.1109/TIFS.2025.3569129.

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析
谛听 | Patty: 基于模式序列的未知工业控制协议语义分析
谛听 | Patty: 基于模式序列的未知工业控制协议语义分析
谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

论文内容介绍

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

1 研究背景

工业控制网络作为现代工业生产系统的核心中枢,承担着物理设备监控与管理、生产过程稳定性保障等关键职能。当前工业控制系统中大量存在的非标准化、高度定制化的工业控制协议(Industrial Control Protocols,ICPs),因其协议规范不透明(即通信规约文档无法获取)而构成显著安全隐患,严重制约了包括恶意行为分析、入侵检测及模糊测试在内的多项安全技术的有效实施。

近年来,基于网络流量分析的协议逆向工程技术为解决这一困局提供了突破口。作为无先验知识条件下的协议规范重建方法,协议逆向工程涵盖报文类型识别、字段边界推断、语义分析与交互状态机重构等多个任务。其中,语义分析是十分关键和耗时的任务之一。对于ICPs而言,语义是指报文中各字段功能的信息描述,如设备标识符、数据长度界定符、功能码等。这些底层语义信息不仅能够帮助安全人员洞察工业现场运行逻辑,还可作为安全态势研判与威胁快速响应的重要决策依据。然而,现有方法普遍面临着ICP语义特征库匮乏的瓶颈,导致语义分析的准确性与可靠性难以得到有效保障。

在协议语义分析领域的早期探索中,研究者主要针对通用协议提出了若干假设(例如,假设参与主机的域名可以由报文提供)及适用于相应字段类型的识别规则。此类方案通过构建概率统计模型实现语义推断,借助规则匹配机制识别未知协议字段,如图1(a)。然而,工业环境的特殊性导致此类假设难以适用,且现有的语义类型体系忽略了"功能码"(如Modbus协议中代表读取线圈的0x01指令)等设备导向型语义特征。ICPs所特有的功能码字段编码机制涵盖了控制回路启停、寄存器读写等直接影响工业控制流程的操作意图,但在通用协议分析中却无对应的语义维度。此外,这些方案在分析过程中需要大量人工介入,严重影响实用性。因此,开发适用于工业控制系统 (ICP) 的自动化语义分析框架迫在眉睫,且极具挑战性。后续研究引入自然语言处理方法(图1(b)),通过特征编码与监督学习构建语义模板簇,基于马氏距离等度量方法计算未知字段与模板的相似度以判定语义类型。此类方法的准确性受限于度量方式的选择,当字段特征与度量指标底层分布假设存在偏差时易产生语义误判。更为关键的是,现有方法面临着误差传导问题,他们普遍采用"字段边界识别→语义特征提取"串行处理架构,初始阶段的边界识别误差通过语义分析环节将被逐级放大,产生系统性偏差累积现象,从而降低最终性能。

为解决上述挑战,本文从全新的视角审视语义分析问题,提出了新的概念——字段模式序列,并运用分类的思想解决字段语义推断任务。如图1(c)所示,与传统分析单个报文的方式不同,本文以IP流[1]作为最小单元,使用协议格式分析工具得到字段边界,然后构建字段模式序列,利用深度学习技术实现不同字段类型的预测,并根据预测结果的概率分布反向优化字段边界推断,从而获取最优的语义分析结果。

首先,本文给出了字段模式序列的形式化定义,并提出模式序列生成算法。按照事先定义的字段语义类型,提取每个流中各报文对应字段的取值,形成数值集合,之后对集合进行编码,得到类似时间序列的模式序列数据。

接着,本文构建了一个深度学习模型,用于提取不同字段类型所对应的模式序列的变化特征,并预测未知字段的语义类型。

最后,通过实验发现,当所推断的字段边界越接近真实边界时,模型置信度分布将呈现收敛特性。基于这一发现,本文提出了基于概率最大化的最优字段类型选择算法,根据模型的预测结果优化字段划分,从而提高预测精度。

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

图1. 三类主流的字段语义分析方法:(a)基于统计特征的规则匹配,(b)基于分词特征的模板匹配,(c)基于模式序列特征的分类模型

2 主要贡献

  1. 本文从时间序列分类的新视角开展语义分析。通过提出字段模式序列的定义,将语义推断问题转化为字段类型分类框架。

  2. 基于该定义,本文设计了模式序列提取算法,并提出了一个全新的基于深度学习的解决框架Patty,通过学习不同模式序列的演变特征,实现未知字段语义类型的预测。

  3. 本文设计了一个概率最大化语义类型选择算法,基于模型预测结果的概率分布,实现最优语义分析结果的选择。

  4. 本文在5类标准工业控制协议及其混合协议上对所提方法进行了评估,实验结果表明,与SOTA解决方案相比,本文方法显著提升了字段语义分析的准确率。

3 提出的字段语义分析方法:Patty

在本章,我们展示了本文方法的整体细节,如图2所示,由字段模式序列构建,字段类型分类,最优字段类型选择三部分组成。为充分提取字段取值的变化规律,我们的方法以流为分析单位,利用协议格式推断算法得到字段的边界划分,对每个字段进行模式序列的构建。然后训练一个多分类模型,学习不同字段模式序列的变化特征进行字段类型的预测,并自动识别未知的字段类型。为提高识别精度,我们的方法实现了最优字段类型选择算法,根据模型的分类结果调整字段边界的划分直至获得最优的语义分析结果。

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

图2. 整体框架

3.1 模式序列

模式序列数据与时间序列[8]类似,由一系列字段的取值组成,但并不严格按照时间顺序排列。

定义3.1.1 一个模式序列谛听 | Patty: 基于模式序列的未知工业控制协议语义分析是由M对字段值和报文组成的集合,

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

,其中谛听 | Patty: 基于模式序列的未知工业控制协议语义分析谛听 | Patty: 基于模式序列的未知工业控制协议语义分析谛听 | Patty: 基于模式序列的未知工业控制协议语义分析谛听 | Patty: 基于模式序列的未知工业控制协议语义分析是字段数值谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析对应的报文。

3.2 字段语义类型

与互联网协议不同,工业控制协议中有特定的字段用于表示协议类型,如协议标识符,这些字段通常位于报文头部。此外,在报文的头部通常还存在一些表示全局信息的字段,如长度,序列号等。这些字段在工业控制协议中十分常见。因此,本文定义了7种语义类型。

  • Magic Number: 该类型的字段通常位于报文头部,用于表示协议类型,如DNP3为0x0564,BACnet为0x81,并且在所有报文中的位置和值都保持不变。

  • Sequence Number: 许多工业控制协议使用该类型的字段来描述报文传输的先后顺序,统计报文的数量,数值上逐渐增大。

  • Function Code: 功能码决定了一条报文的作用,是工业协议中最常见的字段之一,通常用它实现特定的工业过程,控制工业设备执行特定的操作,如Modbus中0x01功能码表示读线圈。

  • Length:  长度字段用于描述整个报文的长度,或是表明后续多个字段、数据块的长度之和。

  • Timestamp: 一些工业控制协议常将该类型的字段添加到报文中,用于表示当前报文的时间信息。

  • Address: 这种类型的字段包含了从站与主站互相识别的身份信息。

  • Checksum: 这种类型的字段常用于验证数据的完整性,是通过对数据包中的特定部分进行数学运算生成的值。

3.3 模式序列生成

本文以流[1]为最小分析单元,将同一流中相同字段的数值表示为序列谛听 | Patty: 基于模式序列的未知工业控制协议语义分析,其中谛听 | Patty: 基于模式序列的未知工业控制协议语义分析表示字段模式序列谛听 | Patty: 基于模式序列的未知工业控制协议语义分析在第谛听 | Patty: 基于模式序列的未知工业控制协议语义分析条报文的取值。对于单个字段语义类型对应的模式序列而言,它描述了特定工业控制协议在一段时间内的变化模式,是该种类型字段取值空间的一个子集。

不同字段类型数值的变化规律存在很大差异,并且其取值也可能完全不同。然而,本文所提方法关注的是不同字段类型在取值变化规律上的特征而非数值大小,因此,必须消除字段数值本身对变化模式的影响。例如常见的序列号字段,因其递增的取值特点,初始值的大小会影响后续所有值。但无论初始值是多少,或是增加到多少,都应归为同一字段类型。

此外,如果将字段的数值按照报文的时间顺序进行排列,则同一字段的变化规律会受到不同工业场景的破坏。以工业控制协议的功能码字段为例,因不同工业场景的业务流程不同,故代表同一种功能代码的数值出现的先后顺序便会不同。以Modbus协议为例,一种也许是以谛听 | Patty: 基于模式序列的未知工业控制协议语义分析为周期,另一种也许是谛听 | Patty: 基于模式序列的未知工业控制协议语义分析,所呈现出来的变化规律完全不同,但其本质上却是同一类型的字段。

为了消除字段数值及时间顺序对分类模型的干扰,本文提出模式序列生成算法,如算法1所示。首先获取字段的数值项,即取值范围,然后统计各数值出现的频率,按照出现频率对该数值进行编号,频率越大则分配较大的编号值,最后用编号替换原始序列。

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

3.4 字段类型分类模型构建

3.4.1 训练数据收集

为了生成足够的训练数据,让模型充分学习到不同字段类型的变化规律,我们将Honeyeye[2]的解析结果作为基本事实,并将构建的字段数值序列及对应字段类型标签以.ts文件格式存储。

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

图3. 基于Honeyeye的协议解析结果

如图3为Honeyeye解析Modbus协议的结果,其中,一个流包含多条报文,一条报文由多个字段组成,我们重点关注工业控制协议的各个字段,即图中的mtcp及modbus部分。由字段模式序列构建方式可知,序列长度为当前流中包含的报文数量,整个训练集的规模为流的数量与公共字段类型数量的乘积。

3.4.2 分类模型搭建

深度学习在计算机视觉、自然语言处理、语音识别等领域进行了大量应用,其中,CNN因其出色的特征提取能力被广泛应用在时间序列分类任务中。我们所提出的字段模式序列与时间序列类似,因此,本文将探索使用CNN模型进行字段语义类型识别。我们搭建了2个1D卷积层,2个池化层,2个全连接层,最后将提取的特征输入Softmax层,从而得到各字段语义类型的类别概率。与经典的时间序列分类模型LSTM-FCN不同,在我们的任务中并不关注时间特征,因此采用CNN便能很好的实现模式序列特征的提取。我们使用Adam作为优化器,使用交叉熵CrossEntropyLoss作为损失函数。

3.5 最优字段类型选择

字段边界的划分会直接影响字段语义分析的准确率,因为不同的字段边界,所组成的模式序列谛听 | Patty: 基于模式序列的未知工业控制协议语义分析不同,故模型的分类结果也不相同。理论上,相同字段类型从不同的流、不同的协议中所构建的模式序列是不同的,但会表现出相同的序列特征,在实际分类中就表现为大部分序列样本的分类结果属于同一个类。因此,对于两种由不同字段边界所构建的模式序列,模型预测结果的分布越集中的理论上越有可能是协议字段的真实边界。为了验证这一观点,我们进行了实验,如图4所示。

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

图4. 不同分段器下模型预测结果的概率分布

基于上述发现,我们提出了最优字段类型选择算法,用于选出最接近真实字段信息的结果。数据的离散程度同时也反映了数据的集中程度,本文采用方差、标准差作为数据离散程度的衡量标准,整体流程如算法2所示。

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

4 实验评估

4.1 实验设置

(1)数据集:我们收集了一些公开可用的工业控制协议 (ICP)流量,筛选出 5 种在工业控制系统中广泛使用的协议类型,如表1所示。需要注意的是,我们的数据集与 SOTA 或来自同一平台,或包含多种常见的相同协议类型。Modbus 是一个标准 ICP,定义了 20 条核心命令(例如,读取或写入线圈)。DNP3.0 基于 TCP/IP,其协议规范比 Modbus 更加复杂。EtherNet/IP 由 ODVA 提出,提供高性能的从站点对点通信。对于确定性的制造过程,S7comm 通过顺序数据包编号来同步控制器状态。IEC 104 使用带时间戳的 APDU 强制执行实时远程控制,这对于智能电网 SCADA 系统至关重要。我们使用 Wireshark清洗网络报文,包括删除无效、冗余和重传的报文,并删除所有报文(例如 TCP/IP )的报头内容,仅保留应用层元素以供下游分析。

表1. 数据集信息

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

(2)评价指标:本文使用 Wireshark 的解析结果作为语义分析的目标,即 ground-truth,将我们的方法和基线得到的结果表示为推断语义,并采用 3 个评估指标。

准确率:同时匹配 ground-truth 和推断语义的序列样本数与仅匹配推断语义的样本总数之比。

召回率:同时匹配 ground-truth 和推断语义的序列样本数与仅匹配 ground-truth 的样本总数之比。

F 分数 (F1) 综合考虑准确率和召回率来计算分数,公式如下:

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

4.2 语义分析评估

为了评估所提出模型的性能,本研究在测试平台上模拟了六种与工业过程修改和中断相关的攻击场景。在本节中,这些攻击详细描述如下:

在本章,我们比较本文所提方法与基线方法在工业控制协议语义分析上的表现,如表2所示。总的来看,我们的方法表现更加优越,在各类数据集上的所有指标均超过了90%,与最好方法的F1值相比,提高了10%。因此,能准确识别出不同类型的字段。从表2可知,Stephan Kleber[5]在各类协议上的精确率很高,但召回率、F1值却很低,且该方法无法推断出具体的语义类型,这可能与其采用聚类的方式有关。IPRFW[3]和FieldHunter[4]的召回率较大,但整体表现稍差与本文所提方法,这与它们基于规则的分析策略密不可分。

表2. 各工具在工业控制协议语义分析中的结果。粗体表示最佳,下划线表示次佳

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

4.3 模式序列生成算法的贡献

为了评估本文提出的模式序列的有效性,我们采用了一系列预处理方法(使用和不使用算法1)在同一数据集上训练模型,并比较分析了模型在测试集上的性能。实验使用Modbus和DNP3.0进行训练,使用EtherNet/IP进行验证,结果显示在图5下方。当关闭算法1,即“不使用”时,Patty的准确率随着训练次数的增加而逐渐提高,训练损失则逐渐下降。然而,该模型在测试集上的性能表现不一致且不稳定,表明该模型可能存在过拟合问题。图5上方显示了使用算法1处理后的模型性能。整体性能稳定,准确率和损失的变化在不同数据集上均呈现出一致的趋势。因此,在模式序列提取的训练过程中,更有可能产生具有良好性能和泛化能力的分类模型。

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

图5. 不同情况下的模型性能。训练集和验证集采用不同的协议。上方结果代表使用算法1,下方则不使用算法1。

其原因可能是,前期训练(未使用算法1)得到的模型关注字段值本身,并将值空间作为关键特征。因此,在划分数据集时,训练集和验证集的特征空间有所不同。例如,对于序列号字段,训练集中的值空间可能为0-1024,而验证集中的值空间可能为2048-6545。

由于学习和推理阶段的特征空间不同,存在模型在训练集和验证集中表现不一致的现象。事实上,不同协议的相同字段具有不同的值空间。如果以值空间作为模型学习的目标,无疑会导致错误分类。因此,模式序列生成算法消除了字段的值空间特征,让模型专注于学习其变化模式而不是值本身,从而获得具有更好鲁棒性的分类网络。

4.4 字段语义类型识别评估

对未训练协议的(未见)语义类型的识别效果:本文提出的分类模型的最终目标是识别未知协议的字段语义。因此,为了检验该模型是否能够识别未知协议字段的语义,我们在五种情况下进行了实验,如表3所示。Patty 接受了除测试协议以外的所有协议的训练。例如,在案例 B 中,使用 DNP3.0 和 Modbus 进行训练,而使用 EtherNet/IP 进行测试。与之相比,在案例 C 的训练集中添加了来自另一个工业场景的 ModbusA 和 DNP3.0A 消息。需要注意的是,在所有情况下,用于测试的协议均被视为未知协议。

表3. 实验采用了不同的协议,适用于不同的场景。协议 # 用于模型训练,而协议 * 则保留用于验证,通过将其排除在训练阶段来模拟未知协议。

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

如图6所示,我们可以得出结论,我们的方法能够识别未知协议字段的语义(例如,在案例 B 中,当使用两种协议进行训练时,整体性能超过 75.0%),并且随着训练集中协议种类(即已知协议)的增加,对未知协议的预测会变得越来越准确,直至趋于稳定(90.0% 以上)。这是因为,尽管同一字段类型在不同的协议或工业场景中会表现出略有不同的变化模式,但它们总体上遵循一致的模式。对于给定的字段类型,模型见过的变化模式越多,它识别未知协议字段类型的能力就越强,即使这些变化模式最初可能会欺骗模型,正如在从案例 A 到案例 B 的转换中所观察到的那样。

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

图6. 对未知协议的识别准确率表现

4.5 不完美分段下的语义分析

我们现在评估 Patty在不依赖 Wireshark 的完美分段情况下的字段类型识别方面的性能。取而代之的是,我们使用现有的分段器:包括 2-byte-fixed、Netzob [6]和 NEMESYS[7],对已知的测试协议集进行测试。此外,我们引入了两个指标来评估协议字段边界分析的性能:

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

与 Tshark 分割方法(即 Ground Truth (GT))相比,实验结果(表 4)表明:(i) 使用固定 2 字节分割时,所有协议的性能均有所下降,但 EtherNet/IP 的下降幅度最小,这可能是因为其真实字段大部分由 2 字节组成。因此,固定 2 字节分割结果与真实字段边界最为接近,即分割效果最强,这已由 Corr. 和 Perf. 指标证实。(ii) 使用 Netzob 分割 DNP3.0 时,其识别准确率下降最为显著,这是因为它将 Length 和 Magic 字段视为单个字段,尽管其 Corr. 较高,但其 Perf.为0,即这种分割过于粗糙,破坏了原始字段模式序列的特征空间。(iii)字段语义分析高度依赖于分割结果,因为现有方法的分割质量有限,故而本文的方法也受其影响。因此,协议语法分析的质量越高,我们的方法便能更好工作。

表4. 不同分段器下的格式推断结果(CORR. 和 PERF.)和字段类型识别

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

4.6 Patty在安全分析领域的应用案例

本节将阐述 Patty 在安全技术中的应用。对于商业客户来说,在产品部署之前,安全评估是一项至关重要的先决条件。这些评估需要深入了解协议,以评估协议设计质量、验证其实现的完整性并发现漏洞。模糊测试是一种广泛采用的技术。然而,有效的模糊测试需要根据协议规范生成合法的网络报文(即测试用例),以避免在目标程序格式检查期间被拒绝,从而提高效率。由于私有协议的文档无法获取,协议逆向工程已成为推断报文结构和实现有效模糊测试的重要方法。我们尝试将 Patty 的 Modbus/TCP 输出集成到流行的模糊测试框架 Boofuzz 中,以生成网络消息并将其传输到 PLC 设备。实验装置如图 7 所示。为了量化模糊测试性能,我们使用测试用例接受率 (TCAR) 作为主要评估指标,其计算方法如下:

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

为了评估 Patty 对测试用例生成的影响,我们进行了一项受控实验,将不同级别的先验知识(即由 Patty 推断的)输入到 Boofuzz:(i) 仅包含协议字段边界信息;(ii) 将字段边界与语义相结合的信息。如图 8 所示,实验结果表明,在模糊测试效率方面,使用补充语义信息生成的测试用例明显优于仅使用协议语法生成的测试用例。这种改进源于 Patty 能够通过语义理解来缩小字段值空间,从而生成更多合法报文并促进更深入的模糊测试。

具体而言,在 Patty 准确识别功能码语义后,可以在测试用例构建过程中注入字段值约束,例如,我们对该字段应用了基于 3σ 原则的值空间调整,以减轻数据集偏差。总体 TCAR 保持在 75.0% 左右,表明相比仅使用语法(即字段边界没有值约束)的模糊测试配置有显著的改进。这些发现强调了语义分析在优化协议模糊测试有效性中的关键作用。

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

图7. 测试环境。使用 Modbus 进行通信,在 PC 上安装Boofuzz,通过网关向 PLC 发送生成的网络报文,并使用 Wireshark 捕获返回的报文。

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

图8. 评估语义信息对模糊测试性能的影响。Syntax Only:Boofuzz 仅知道 Modbus 消息的字段边界。Syntax & Semantics:它还知道每个字段的语义信息。

5 总结

协议语义包含每个消息字段的功能信息,有助于理解网络行为并评估安全级别。然而,现有研究缺乏针对工业控制协议的语义分析。本文定义了字段模式序列,并提出了一种基于分类的思想来解决语义分析任务。具体而言,本文首次提出了字段模式序列的概念,并设计了一种模式序列生成算法,用于从报文中提取每种字段的变化模式。然后,引入深度学习对不同字段类型的取值模式进行建模,并利用深度学习预测未知协议字段的语义类型。最后,为了获得最优的分析结果,本文尝试基于预测结果的概率分布反向优化字段边界分析,从而促进语义分析的质量。系统的实验评估表明,本文所提的解决方案比现有基准方法表现更佳。

参考文献

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析
谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

[1] P. Aitken, B. Claise, and B. Trammell, “Specification of the IP Flow Information Export (IPFIX) Protocol for the Exchange of Flow Information,” RFC 7011, Sep. 2013. [Online]. Available: https://www.rfc-editor.org/info/rfc7011.

[2] C. Sheng, Y. Yao, D. Li, H. An, and W. Yang, “Honeyeye: A network traffic collection framework for distributed ICS honeynets,” in 2020 IEEE Intl Conf on Parallel & Distributed Processing with Applications, Big Data. IEEE, 2020, pp. 466–473.

[3] O. Liu, B. Zheng, W. Sun, F. Luo, Z. Hong, X. Wang, and B. Li, “A data-driven approach for reverse engineering electric power protocols,” Journal of Signal Processing Systems, vol. 93, pp. 769–777, 2021.

[4] I. Bermudez, A. Tongaonkar, M. Iliofotou, M. Mellia, and M. M. Munafo, “Automatic protocol field inference for deeper protocol understanding,” in 2015 IFIP Networking Conference (IFIP Networking). IEEE, 2015, pp. 1–9.

[5] S. Kleber, F. Kargl, M. State, and M. Hollick, “Network message field type clustering for reverse engineering of unknown binary protocols,” in 2022 52nd Annual IEEE/IFIP International Conference on Dependable Systems and Networks Workshops (DSN-W). IEEE, 2022, pp. 80–87.

[6] G. Bossert, F. Guihery, and G. Hiet, “Towards automated protocol reverse engineering using semantic information,” in Proceedings of the 9th ACM symposium on Information, computer and communications security, 2014, pp. 51–62.

[7] S. Kleber, H. Kopp, and F. Kargl, “NEMESYS: Network message syntax reverse engineering by analysis of the intrinsic structure of individual messages,” in 12th USENIX Workshop on Offensive Technologies (WOOT 18), 2018.

[8] N. M. Foumani, L. Miller, C. W. Tan, G. I. Webb, G. Forestier, and M. Salehi, “Deep learning for time series classification and extrinsic regression: A current survey,” arXiv:2302.02515, 2023.

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

第一作者:杨道青

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析
谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

东北大学博士研究生,主要研究方向为工业互联网安全,未知协议逆向分析。

指导教师:姚羽

谛听 | Patty: 基于模式序列的未知工业控制协议语义分析
谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

东北大学教授,“谛听”团队创始人,复杂网络系统安全保障技术教育部工程研究中心主任。

原文始发于微信公众号(谛听ditecting):谛听 | Patty: 基于模式序列的未知工业控制协议语义分析

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年5月29日09:55:14
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   谛听 | Patty: 基于模式序列的未知工业控制协议语义分析https://cn-sec.com/archives/4109950.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息