【论文速读】| 软件安全的大语言模型 (LLM)：代码分析、恶意软件分析、逆向工程

admin

140552
文章

117
评论

2025年4月23日21:28:38评论18 views字数 7691阅读25分38秒阅读模式

【论文速读】| 软件安全的大语言模型 (LLM)：代码分析、恶意软件分析、逆向工程

基本信息

原文标题：Large Language Model (LLM) for Software Security: Code Analysis, Malware Analysis, Reverse Engineering

原文作者：Hamed Jelodar, Samita Bai, Parisa Hamedi, Hesamodin Mohammadian, Roozbeh Razavi-Far, Ali Ghorbani

作者单位：Canadian Institute for Cybersecurity, Faculty of Computer Science, University of New Brunswick, Canada

关键词：Large Language Model, Malware Detection, Source Code Analysis, Knowledge-Enhanced Pretrained, Reverse Engineering

原文链接：https://arxiv.org/abs/2504.07137

开源代码：暂无

论文要点

论文简介：大语言模型（LLMs）最近已成为网络安全领域的强大工具，在恶意软件检测、生成以及实时监控方面具备先进的能力。众多研究已经探索了它们在网络安全中的应用，证明了其在识别新型恶意软件变种、分析恶意代码结构以及加强自动化威胁分析方面的有效性。

人们已经提出了几种基于 Transformer 架构和由大语言模型驱动的模型，以改进恶意软件分析，这些模型利用语义和结构方面的洞察来更准确地识别恶意意图。本研究对基于大语言模型的恶意软件代码分析方法进行了全面综述，总结了近期的进展、趋势以及方法论。

研究者研究了一些重要的学术著作，以描绘该研究领域的全貌，确定关键挑战，并突出由大语言模型驱动的网络安全领域中涌现的创新成果。此外，研究者强调了静态分析在恶意软件检测中的作用，介绍了一些知名的数据集和专门的大语言模型，并讨论了支持自动化恶意软件研究的重要数据集。

本研究为研究人员和网络安全专业人士提供了有价值的参考资料，使他们能够深入了解由大语言模型驱动的恶意软件检测和防御策略，同时勾勒出加强网络安全弹性的未来发展方向。

研究目的：本研究旨在全面梳理大语言模型在恶意软件代码分析中的研究进展和应用趋势。随着LLM在自然语言处理和软件安全领域中的表现日益卓越，作者希望通过系统性的回顾，总结当前模型在恶意代码检测、生成、监控、逆向工程、家族分类等多维度任务中的优势与不足。此外，研究团队还特别强调了LLM在静态分析场景中的重要性，并尝试构建从模型架构、数据集、实验评估到未来研究方向的一体化知识框架。通过本研究，作者希望为安全研究人员、工业开发者和政策制定者提供前沿的技术洞察，推动人工智能在网络安全防御体系中的深入融合。

研究贡献：

1. 系统回顾了当前LLM在恶意代码分析中的研究成果与技术趋势，涵盖检测、生成、监控、逆向工程与家族分类等核心方向。

2. 本文为首个将恶意代码的多维度分析整合进LLM视角的综述性论文，全面覆盖了代码语义理解、结构推理等关键能力。

3. 深入探讨了LLM如何通过理解源代码的语义和结构，识别出潜在的恶意行为。

4. 提出了未来研究可能探索的数据集与改进模型方向，进一步推动LLM在恶意代码分析任务中的研究演进。

引言

近年来，大语言模型（LLMs）的快速发展为软件安全领域带来了全新的机遇。由于具备强大的语义理解和推理能力，LLMs 被广泛应用于代码分析、恶意软件检测以及程序逆向工程等任务中。随着恶意代码复杂度的提升，传统检测方法难以应对其多样性和隐蔽性，而LLMs通过对源代码语义与结构的深度建模，展现出更强的泛化能力与适应性。研究表明，基于Transformer的架构使模型能够在无监督学习中掌握编程语言的上下文逻辑，从而识别潜在的恶意行为。此外，LLMs还可用于生成代码摘要、辅助分析恶意家族变种，并提供逆向工程支持。这些能力不仅提高了威胁检测效率，也增强了安全分析的智能化水平。本文聚焦于LLM在恶意软件分析中的多种应用，系统回顾相关研究成果，旨在为未来网络安全研究提供新的思路和方向。

研究背景

为了帮助读者更好地理解大语言模型（LLMs）在恶意代码分析中的应用，本文在研究初期专门梳理了与之相关的核心概念，包括逆向工程、恶意软件分析方法以及LLM本身的关键技术原理。

首先，逆向工程在恶意软件分析中扮演着至关重要的角色。由于大多数恶意程序都是以二进制形式传播而非公开源代码，研究人员通常需借助工具如IDA Pro或Ghidra对可执行文件进行反汇编或反编译，以还原其功能结构并识别潜在的恶意行为。

在传统恶意软件分析中，常用的方法包括静态分析和动态分析。静态分析在不运行程序的情况下检查文件特征，如汇编指令、API调用等；动态分析则关注程序运行过程中的行为，如内存活动、网络请求等。但这两种方法往往效率低、自动化程度有限，难以应对复杂多变的威胁。

相比之下，LLMs通过大规模语料训练，具备理解代码结构与语义的能力，并能通过微调适应恶意代码检测、分类与摘要等具体任务。结合Prompt Engineering、预训练与精调策略，LLMs可以高效捕捉恶意代码的模式与异常行为，弥补传统方法的不足，推动安全分析向智能化、自动化迈进。

相关工作

近年来，随着大语言模型（LLMs）在自然语言处理领域取得突破性进展，越来越多的研究开始关注其在恶意软件分析中的应用。一些文献综述系统回顾了LLMs在网络安全中的作用，覆盖了漏洞检测、威胁情报、恶意行为识别和安全策略自动化等方向。特别是在恶意代码分析方面，研究者从静态与动态分析两个维度，探索了模型对代码结构、行为模式的理解能力。

在静态分析方面，已有工作利用LLMs对PE文件、Java代码、Android应用等不同平台的恶意样本进行建模，通过提取汇编指令、权限调用、代码特征等信息实现高精度检测与分类。而在动态分析方面，研究者引入模型对API调用序列、系统行为日志等运行时数据进行建模，识别隐藏的恶意行为。

此外，还有研究聚焦于LLM生成恶意代码的潜在风险与防御手段，提出如MCGMARK的水印方法用于追踪由模型生成的可疑代码内容。另一些工作则探索了LLMs在恶意代码摘要、家族归类、逆向辅助中的能力，如CodeT5+与MalParse框架展示了LLMs对复杂恶意逻辑的语义理解与自动摘要能力。

总体而言，现有研究充分显示了LLMs在恶意软件分析中的巨大潜力，但也暴露出诸如模型可解释性、数据依赖性、对抗鲁棒性等挑战，仍需进一步深入探索。

用于恶意代码检测的大语言模型

随着恶意代码的不断演化，传统检测方法面临识别效率低、难以泛化等挑战。大语言模型（LLMs）因其强大的语言建模与上下文理解能力，逐渐成为恶意代码检测的新工具。研究表明，LLMs可以通过识别代码中的语义模式与结构特征，在不依赖固定特征库的情况下，精准区分恶意与正常代码。

在实际应用中，LLMs被广泛应用于多个平台的恶意代码检测任务，包括Windows的PE文件、Android应用APK、Java源码以及网页脚本。研究人员利用LLM对这些平台中代码的结构、API调用、权限声明等进行建模，从而发现潜在威胁。例如，MalBERT模型基于Transformer架构，在静态分析Android应用中表现出色；而在Windows环境下，也有基于GPT-2、BERT等模型的检测系统，利用汇编指令序列实现高准确率的恶意代码识别。

此外，研究还表明，通过微调（fine-tuning）LLMs，使其适应特定恶意代码样本和标签信息，可以进一步提升其检测能力。尤其是在处理混淆、加密或零日攻击等高级恶意代码方面，LLMs展现出强大的潜力，为构建自动化、智能化的恶意代码防御体系提供了有力支持。

用于恶意软件家族代码分析的大语言模型

恶意软件家族分类在威胁情报构建与攻击溯源中具有重要意义。通过将具有相似特征与行为模式的恶意代码归入相同家族，安全分析人员可以更高效地理解其传播方式与攻击逻辑。近年来，大语言模型（LLMs）在这一任务中展现出独特优势。

传统方法通常依赖人工提取的特征，如字节码、控制流图、API调用等，配合分类器完成家族判定。而LLMs则通过对大规模代码数据的预训练，具备了自动学习代码语义和上下文关系的能力。一些研究提出了基于Transformer的上下文感知框架，结合模型如ChatGPT或GPT-4o-mini，对Android恶意软件进行行为建模，并成功将其划分为Adware、Backdoor、PUA、Riskware、Scareware与Trojan等常见家族。

此外，研究者还设计了融合多种训练目标的新型预训练方法。例如，有研究引入了结合“掩码语言建模（MLM）”与“依赖建模（MDM）”的RMA结构，即使在缺乏符号信息的情况下，也能有效提取恶意软件样本中的上下文依赖特征。

总体来看，LLMs通过理解代码中的深层语义关联，提升了家族分类的准确性与自动化程度，为构建动态演化的威胁画像提供了坚实的技术基础。

用于恶意代码定位分析的大语言模型

在恶意代码分析中，精准定位恶意行为所在的函数、模块或代码片段，是实现有效清除和深入分析的关键。然而，恶意代码常常伪装在看似正常的逻辑中，使得人工排查成本高、误判风险大。为此，研究者开始探索利用大语言模型（LLMs）来识别潜藏于源代码中的可疑区域。

LLMs凭借其对代码语义和结构的理解能力，可以在无需执行的情况下，从源代码中识别出潜在的恶意操作。例如，模型可以检测到异常的API调用、可疑的网络行为、或者涉及系统命令操作的函数，从而推断出其可能的恶意意图。此外，LLMs通过训练在大量恶意与正常代码样本上，能够学习识别如控制流异常、资源调用异常、命名混淆等行为模式。

在实际研究中，LLMs被用于分析代码的函数调用路径、引入的库文件和系统资源交互模式，以此推断恶意代码的“落点”。相较于传统基于规则或签名的方法，这种基于语义推理的方式更具适应性，特别是在应对新型或混淆技术复杂的恶意样本时，能显著提高分析效率和准确度。

因此，LLMs正在成为辅助安全研究人员快速定位恶意代码位置的重要工具，推动自动化恶意代码溯源分析的深入发展。

用于恶意恶意软件RE的大语言模型

逆向工程（Reverse Engineering, RE）是理解恶意软件内部逻辑和行为机制的核心手段，尤其在面对没有源码的恶意程序时尤为重要。传统的逆向分析依赖手动使用反汇编工具（如IDA Pro、Ghidra）解析可执行文件（如Windows的PE文件），过程繁琐且对分析者专业要求极高。而大语言模型（LLMs）的引入，正在革新这一流程。

LLMs可以辅助逆向工程任务的多个关键环节。首先，在低层级的二进制分析中，模型可对反汇编生成的指令序列进行语义还原，辅助分析未知函数的功能。其次，在高层级的伪代码生成任务中，LLMs能够将机器码映射成更接近人类语言的解释形式，从而降低分析门槛。研究还发现，LLMs在分析混淆代码、还原加密逻辑以及识别恶意payload方面展现出显著优势。

进一步地，针对打包或加壳的恶意样本，LLMs还可以识别常见的隐藏模式，并在解码过程中协助还原原始指令流，提高解包效率。此外，部分研究利用LLM训练出的嵌入模型，实现了从已知源函数中查找与恶意二进制函数匹配的能力，增强了自动对比分析效果。

综上所述，LLMs正成为恶意软件逆向工程的重要助手，不仅提升了分析效率，还拓展了安全研究人员在高复杂度样本处理中的能力边界。

用于代码监控/检查和恶意软件防范的LLM

代码检查与监控是保障软件开发安全性的重要环节，目标是在代码部署前发现潜在漏洞或恶意逻辑，从源头上防止攻击发生。相比传统静态分析工具，大语言模型（LLMs）因其强大的语言理解与推理能力，正在成为新一代代码安全审查的重要补充。

LLMs可以辅助开发者进行更智能的代码审查与缺陷检测。一方面，模型可自动识别潜在的逻辑漏洞、安全隐患与不规范的编码习惯；另一方面，它还能生成人类可读的解释与修改建议，提高代码质量与可维护性。例如，GPT-4等模型在小型项目或由初学者编写的代码中表现尤为出色，能有效指出易被忽视的安全缺陷。

此外，LLMs还能结合漏洞数据库（如CVE、CWE）进行自动化漏洞分类和追踪，甚至生成测试用例或修复建议，拓展了代码检查的应用深度。部分研究还表明，通过精心设计的Prompt，LLMs可以在审查REST API时识别复杂依赖关系，生成高质量测试样本，提高安全性评估的覆盖率。

总体而言，LLMs不仅提高了代码监控的准确性与解释性，还增强了恶意行为预防能力，正在推动代码审查从“被动发现问题”向“主动预警风险”的方向演进。

大语言模型生成的恶意代码

随着大语言模型（LLMs）在代码生成任务中的广泛应用，其潜在风险也逐渐引起关注。尽管这些模型为开发者带来了编程效率的提升，但也被发现可能在不当引导下生成具有攻击性的恶意代码，进而对网络安全构成威胁。

研究指出，LLMs在特定提示（prompt）下，可能生成诸如钓鱼攻击脚本、加密勒索逻辑、系统破坏命令等恶意功能代码。尤其是在攻击者通过绕过模型内置的安全约束机制，采用“间接暗示”或“多轮提示”策略时，模型更易暴露潜在风险。例如，有研究构建了包含400多个任务的测试数据集，评估LLMs在恶意代码生成上的行为倾向，并提出了MCGMARK水印机制，用于追踪和标记模型生成的可疑代码。

尽管主流模型（如GPT、Claude等）具备一定的安全防护策略，但实验结果表明，攻击者仍有可能通过不断优化提示语或迂回语言策略，引导模型输出带有恶意意图的代码段。这种能力如果被滥用，可能降低恶意代码的生成门槛，加剧网络攻击的自动化趋势。

因此，LLMs在助力安全研究的同时，也必须在设计、部署与监管层面加强防范机制，防止其被不法分子利用成为“攻击工具”的一环。

用于恶意软件分析的顶级基于LLM的模型

在恶意软件分析领域，一些经过专门训练或微调的大语言模型（LLMs）已经展现出卓越的性能，成为当前研究和实践中的热门工具。这些模型不仅提升了恶意代码识别的准确性，还在逆向工程、行为建模、家族分类等任务中提供了强大的支持。

例如，MalT5模型是基于T5架构并结合恶意代码摘要数据（如MalS数据集）与良性伪代码语料微调而成，能够有效生成语义丰富的恶意行为描述。此外，还有研究将CodeBERT和BERT嵌入与注意力机制结合，构建了行为驱动的恶意软件检测框架，如APILI系统，专注于分析动态执行轨迹中的API调用模式。

在细粒度分析方面，研究人员利用GPT-2、Stacked BiLSTM等模型，通过分析汇编指令，建立起从语句层到文档层的多层级检测模型，显著提升了对混淆或零日代码的识别能力。同时，也有学者评估了如GPT-4、Gemini Pro等主流闭源模型在特定任务中的表现，如PowerShell脚本解混淆与恶意指令还原，验证了其处理复杂场景的适应能力。

恶意软件数据集

高质量的数据集是大语言模型（LLMs）在恶意软件分析中取得良好效果的关键。为了训练和评估面向安全任务的模型，研究者构建了多种覆盖不同平台、类型与行为特征的恶意软件数据集。

以Windows平台为例，许多研究使用Win32可执行文件（PE文件）构建数据集，这些样本来自公开恶意软件仓库如VirusTotal、sorel-20m和VirusShare等，包含大量带有标签的恶意与良性样本。研究者还结合恶意样本的汇编指令与API调用路径，生成多粒度的分析语料，用于训练如GPT-2、BiLSTM等模型。

在Android平台，广泛使用的数据集包括AndroZoo、TaintBench、Kronodroid等，这些数据集提供APK文件、权限信息、反编译源码等多维特征，支持静态与动态分析任务。一些数据集还标注了恶意家族标签，可用于训练模型进行家族分类。

此外，研究者还构建了网站恶意代码数据集，用于识别钓鱼页面、恶意脚本与可疑行为，数据来源包括真实世界的恶意网站、自动爬虫抓取与安全厂商共享情报。

为了支持模型在恶意代码生成检测方面的研究，一些工作还构建了特定任务数据集，如MCGTEST和MalS，专注于评估LLM是否会生成潜在恶意代码，以及如何通过水印等方式进行识别。

这些多样化的数据集为LLMs在恶意软件分析任务中提供了坚实的基础支撑，推动了研究的深入开展。

讨论、局限性与建议

尽管大语言模型（LLMs）在恶意软件分析中展现出显著潜力，但仍存在若干挑战亟需解决。首先，模型在处理实际应用中的复杂代码结构时，容易受到训练数据偏差的影响，导致对特定语言或平台的泛化能力有限。其次，由于部分恶意样本高度混淆、加密或打包，LLMs在还原其真实行为方面仍面临困难。此外，当前模型缺乏对上下文的稳定记忆与跨文件分析能力，不利于深度溯源或长链条攻击识别。

为应对上述问题，研究者建议加强跨模态、跨平台的数据集构建，提升模型对混合威胁的识别能力；同时发展解释性机制，使模型的决策过程更加透明可控。在部署层面，也应结合传统安全工具与人类专家共同审查，构建多层次的防护体系，最大程度发挥LLMs在恶意代码防御中的辅助价值。

研究结论

在本文中，研究者全面概述了大语言模型（LLMs）在恶意软件代码分析领域的潜力。研究者的重点主要放在基于 Transformer 的模型，以及它们在检测、分类和理解恶意代码方面的能力上。这些先进的自然语言处理（NLP）模型在应对现代网络安全挑战方面展现出了巨大的潜力，尤其是在识别和缓解不断演变的恶意软件威胁方面。

研究者探讨了大语言模型如何有效地分析恶意代码，利用它们理解模式、检测异常以及高精度分类威胁的能力。通过利用深度学习和预训练模型的强大功能，大语言模型有潜力彻底革新恶意软件分析领域，使其更高效且更具可扩展性。

此外，研究者研究了各种对恶意软件研究有重要作用的公开可用数据集，特别是对于大语言模型的预训练和微调等任务。这些数据集在恶意软件的静态分析中起着关键作用，使研究人员和网络安全专业人员能够在真实世界的恶意代码样本上训练模型。

再者，研究者研究了将大语言模型集成到恶意软件检测和缓解策略中如何能够带来更具前瞻性的网络安全措施。通过将恶意软件分类和代码分析的某些方面自动化，大语言模型提高了检测速度，减少了人力投入，并改善了整体安全状况。它们适应新的和不断演变的恶意软件威胁的能力，使它们成为网络安全防御机制中的一个有价值的工具。

尽管目前已经取得了一些进展，但研究者认为大语言模型在进一步改进恶意软件分析方法和加强网络安全防御方面仍具有巨大潜力。随着这些模型的不断发展，它们可能会在塑造威胁情报、恶意软件检测和网络安全自动化的未来方面发挥关键作用。

原文始发于微信公众号（安全极客）：【论文速读】| 软件安全的大语言模型 (LLM)：代码分析、恶意软件分析、逆向工程

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【论文速读】| 软件安全的大语言模型 (LLM)：代码分析、恶意软件分析、逆向工程

LLM学习笔记：最好的学习方法是带着问题去寻找答案

浙江大学：DeepSeek技术溯源及前沿探索

DeepSeek应用场景安全问题和防范措施手册

大模型时代下，Web指纹识别的现状与未来

【实战】手把手学习写一个MCP服务，获取热榜文章

深度学习基础架构革新？通过梯度近似寻找Normalization的替代品

AI的攻与防：基于大模型漏洞基因库的威胁狩猎与企业级纵深防御

基于 MCP 的 AI Agent 应用开发实践

【论文速读】| 漏洞放大：针对基于LLM的多智能体辩论的结构化越狱攻击

AAAI 2025｜利用语言模型实现跨异质性知识转移

发表评论

在线咨询

微信