【论文速读】| 通过大语言模型从协议实现中推断状态机

admin

145721
文章

119
评论

2024年6月6日20:47:32评论48 views字数 2104阅读7分0秒阅读模式

本次分享论文：Inferring State Machine from the Protocol Implementation via Large Language Model

基本信息

原文作者：Haiyang Wei, Zhengjie Du, Haohui Huang, Yue Liu, Guang Cheng, Linzhang Wang, Bing Mao
作者单位：南京大学，奇安信集团，东南大学网络科学与工程学院
关键词：大语言模型, 协议逆向工程, 状态机, 代码分析
原文链接：https://arxiv.org/html/2405.00393v1
开源代码：暂无

论文要点

论文简介：本文提出了一种利用大语言模型（LLM）从网络协议实现中推断状态机的方法。此方法通过文本嵌入技术，使LLM能够深入分析协议实现代码的细节，并通过系统的提示工程识别和推断潜在的状态机。实验结果表明，该方法在六种不同的协议实现中的平均准确率超过90%，且在与协议模糊测试工具AFLNet集成时，能显著提高代码覆盖率。

研究目的：针对动态分析可能因测试覆盖不全而遗漏关键状态转换，以及静态分析在处理复杂代码结构时的挑战，本文提出了一种基于大语言模型（LLM）的状态机推断方法。该方法旨在通过文本嵌入技术和提示工程技术，利用大语言模型的深度理解和代码生成能力，从协议实现代码中准确推断出状态机，以提高协议安全性分析的效率和准确性。

研究贡献：

1. 首次将大语言模型应用于从协议实现中推断状态机的问题，展示了LLM在处理复杂协议实现中的潜力；

2. 开发了一种名为PROTOCOLGPT的工具，自动化推断状态机；

3. 通过一系列实验验证了LLM在提取状态机方面的有效性，使用PROTOCOLGPT揭示了不同实现间的状态机差异，并提高了协议模糊测试工具的效果。

引言

本文首先介绍了状态机在网络协议分析中的重要性，并探讨了传统分析方法的局限性。接着，提出采用大语言模型（LLM）来克服这些限制，通过文本嵌入技术深入分析协议实现代码，并系统地通过提示工程技术推断潜在的状态机。该方法的优势在于能够处理复杂的代码结构，并且通过实验验证，显示出其在协议模糊测试中超过90%的准确率和显著提升的代码覆盖率。

研究背景

在网络协议分析领域，准确提取状态机对于验证协议安全性和理解协议功能是至关重要的。传统的状态机推断方法主要依赖动态分析和静态分析：动态分析受限于测试覆盖范围，而静态分析则难以应对复杂的代码结构。近年来，自然语言处理技术已开始应用于从协议规范文档中提取状态机，但RFC文档的模糊性常常导致不同实现之间的差异，从而增加了协议安全分析的难度。因此，开发一种新的状态机推断方法以应对这些挑战变得尤为重要。

研究动机

随着网络协议的复杂性日益增加，传统状态机推断方法面临众多挑战。尤其是由于RFC文档固有的模糊性，不同开发者可能会采用不同的实现方式应对同一协议规范，导致实现间存在显著差异。这些差异不仅妨碍了状态机的准确推断，还可能成为网络安全的潜在风险点。此外，尽管现有的自然语言处理技术能够从文档中提取信息，但在处理源代码时往往显得不足。因此，本研究旨在利用大语言模型（LLM）的强大代码分析能力，改进状态机推断方法，以提高协议实现分析的准确性和安全性。

PROTOCOLGPT

PROTOCOLGPT是一种创新的工具，它利用大语言模型（LLM）从协议实现代码中推断状态机。通过精细的提示工程和文本嵌入技术，PROTOCOLGPT能够指导LLM深入分析复杂的代码结构，并准确推断出状态机。这款工具不仅提高了状态机推断的准确性，而且通过自动化的代码分析过程显著提升了分析效率。此外，PROTOCOLGPT还集成了代码预处理功能，优化了代码段的分析过程，确保从庞大且复杂的协议实现中高效、准确地提取状态机信息。

实验评估

为验证PROTOCOLGPT的效果，本研究对六种不同的协议实现进行了状态机推断实验。通过比较PROTOCOLGPT、传统方法和未使用代码辅助的LLM模型，实验结果显示PROTOCOLGPT在状态机推断的准确率和效率上均有显著提升，平均准确率超过90%。此外，PROTOCOLGPT推断出的状态机被应用于协议模糊测试工具AFLNet，成功提高了代码覆盖率，进一步证明了其在实际应用中的有效性和实用性。这些实验不仅展示了PROTOCOLGPT的技术优势，也突显了大语言模型在网络协议安全分析中的潜力。

论文结论

本研究成功开发了PROTOCOLGPT工具，该工具融合了大语言模型（LLM）的先进能力，从而有效地从协议实现代码中推断状态机。实验结果证明，PROTOCOLGPT能够准确地从复杂的协议代码中提取状态机，其准确性和效率均优于传统方法。

此外，PROTOCOLGPT在提升协议模糊测试工具AFLNet的代码覆盖率方面也取得了显著效果。这表明，利用LLM进行状态机推断不仅能提升网络协议分析的质量，还能增强网络安全防护的能力。本研究为未来网络协议分析与安全领域提供了新的思路和工具。

原作者：论文解读智能体

校对：小椰风

原文始发于微信公众号（安全极客）：【论文速读】| 通过大语言模型从协议实现中推断状态机

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【论文速读】| 通过大语言模型从协议实现中推断状态机

图神经网络系列六：GCN优化之GAT与lightGCN

关于AI系统的访问控制，看看权威观点

中山大学｜FORGE：驱动大语言模型自动化构建大规模智能合约漏洞数据集

当ChatGPT接入MCP，你的数据是如何被泄露的？

【AI风险通告】LLaMA-Factory存在远程代码执行漏洞（CVE-2025-53002）

启明星辰发布大模型安全威胁框架（附下载链接）

当好的GPT变坏：如何利用受信任的AI工具进行攻击

专题·人工智能安全 | 政府部门DeepSeek私有化部署的安全管理策略研究

大模型注入攻击和防御

ChatGPT官方网络安全类GPTs推荐清单，及提示词破解

发表评论

在线咨询

微信