大语言模型驱动的网络攻防新态势：基于DeepSeek的探索与实践

admin

141987
文章

117
评论

2025年3月14日19:05:10评论48 views字数 6039阅读20分7秒阅读模式

更多安全资讯和分析文章请关注启明星辰ADLab微信公众号及官方网站（adlab.venustech.com.cn）

第一章

引言

1.1 研究背景与意义

在数字化进程持续加速的当下，网络空间已成为关键领域，网络安全的重要性愈发凸显。随着大语言模型（Large Language Model，LLM）技术呈爆发式发展，其在网络安全攻防领域展现出巨大的应用潜力。LLM具备强大的自然语言处理能力，能够高效解析和生成代码，这为深入剖析复杂程序逻辑、精准识别潜在安全漏洞提供了有力支持。同时，以DeepSeek-R1为典型代表的模型展现出卓越的推理能力，使其可模拟攻击者的思维，预测攻击链条，为长期处于胶着状态的网络攻防对抗带来了全新的视角与方法。

本研究旨在通过深入探索LLM在网络攻防实战对抗中的应用，特别是在网络攻防长期存在技术不对称的背景下，探究AI技术融入攻防对抗时所可能引发的变革新态势，探寻AI辅助的防御手段对基于AI增强攻击的应对能力。这不仅有助于加深对网络攻防新态势的理解，还能为推动安全技术创新发展、构建更稳健的网络安全防护体系提供实践依据。

1.2 研究方法与实验设计

为深入探讨上述问题，并将理论探讨落到实处，本研究运用实验研究法，设计并开展了一项基于DeepSeek大语言模型的攻防对抗探索性实验。实验以Webshell攻防为典型场景，旨在研究AI技术介入攻防对抗可能带来的变化，并初步揭示LLM在实际攻防场景中的应用效果和局限性。选择Webshell的生成与检测作为实验对象和目标，主要基于以下考虑：

（1）Webshell特性与LLM能力的高度匹配：Webshell作为一种常见的恶意代码形式，其生成和检测都高度依赖代码能力，这与LLM在代码生成和理解方面的优势天然契合。

（2）Webshell攻防的演进性：Webshell攻击作为一种经典的、持续演进的网络威胁，其攻防对抗本身就具有挑战性和创新性。选取Webshell作为实验对象，既能检验LLM在解决现有安全问题上的能力，还能前瞻性地探索AI技术可能为未来攻防对抗带来的新思路和方法。

（3）Webshell攻防的复杂性与对抗性：Webshell攻防的复杂性和对抗性，为观察AI在更复杂安全场景下的表现提供了良好的平台。

本文后续章节将详细介绍实验设计、实验结果、实验洞察以及技术展望，并对LLM在网络攻防领域的应用前景进行深入讨论。

第二章

基于DeepSeek的探索实践

2.1 实验方案设计

为了能够更加系统地了解和评估LLM在Webshell生成和检测方面的潜力与表现，本研究设计并构建了一个包含两个核心Agent的原型系统，用于模拟实时演进的Webshell攻防对抗过程。

2.1.1 系统架构

系统由两个Agent组成，均基于DeepSeek-R1模型构建：

（1）Webshell生成Agent：该Agent负责自动生成各类Webshell代码，并根据Webshell检测Agent的反馈结果进行迭代优化，以提升再生成Webshell的对抗能力。

（2）Webshell检测Agent：该Agent作为检测引擎，利用提示词工程及DeepSeek-R1预训练模型的基础能力，识别和分析可疑代码，判断其是否为Webshell。

2.1.2实验流程

原型系统按照以下流程进行攻防对抗实验：

（1）初始化生成：Webshell生成Agent利用预置提示词生成初始的Webshell代码。

（2）提交检测：生成的Webshell代码被提交至Webshell检测Agent进行分析和检测。

（3）结果反馈：检测Agent返回检测结果，包括是否判定为Webshell以及判断依据。

（4）策略调整与迭代：生成Agent根据检测结果和反馈信息，调整生成策略，改进并生成Webshell代码。

（5）循环迭代：重复步骤2-4，形成Webshell生成与检测的循环对抗过程，如下图所示。

基于DeepSeek的原型系统攻防对抗流程

2.2 实验环境与数据准备

为确保实验的一致性和可比性，生成Agent和检测Agent均采用DeepSeek-R1官方API。

实验所用的Webshell检测数据集由两部分构成：

（1）公开Webshell样本集：从GitHub等代码托管平台收集的3317个各类公开Webshell样本，用于评估LLM对已知Webshell的检测能力。

（2）Agent生成Webshell样本集：由Webshell生成Agent在对抗循环中不断生成的200个复杂Webshell样本，用于评估LLM在对抗场景下的生成和检测能力。

2.3 评估方法

为更加客观地评估LLM在Webshell生成和检测方面的潜力，实验采取准确率评估的方法，并开展对照试验。

（1）对照组1：对照公开Webshell样本和Agent生成的复杂Webshell样本的被检出情况，以评估LLM是否有助于提升Webshell生成侧的能力。

（2）对照组2：将LLM检测Agent的检测结果与传统规则引擎等第三方工具的Webshell检测结果进行对比，通过检测准确率量化LLM在Webshell检测能力上的提升。

2.4 实验结果与分析

2.4.1 Webshell生成与检测效果

在Webshell生成方面，生成Agent累计生成了200个复杂Webshell样本。在检测方面，对于生成Agent生成的200个Webshell样本，检测Agent识别出142个（准确率71%），而传统的规则引擎仅识别出60个（准确率30%）。对于3317个已知公开Webshell样本，LLM检测Agent的准确率达到93.21%，传统规则检测引擎的准确率为82.48%。

实验数据表明：

（1）通过生成Agent生成的200个WebShell样本，其被检出率远低于公开Webshell样本的被检出率。

（2）无论是公开Webshell样本还是由Agent动态生成的复杂Webshell样本，检测Agent对其的识别率较传统第三方工具都有明显提升。

2.4.2 LLM未检出样本分析

经分析发现，LLM未检出部分公开Webshell样本的原因在于模型对特定功能文件的判定策略。这些未检出样本主要包括数据库管理工具、服务器状态探针等正常业务功能组件，模型可能将其认定为正常业务功能。

第三章

实验洞察与思考

本实验初步揭示了人工智能（AI）介入网络攻防对抗的可行性与潜在问题，并为后续研究提供了有价值的启示。

3.1 大语言模型（LLM）驱动Webshell演变，提升攻击效能

经实验探究发现，在持续的网络攻防对抗迭代过程中，大语言模型（LLM）有力推动了Webshell的“进化”进程，使其具备基于上下文感知的动态自适应特性，复杂度与隐匿性均显著增强。

系统借助上下文窗口机制，对历史生成的Webshell样本及其相应的检测信息予以整合，通过多轮对抗迭代最终实现了Webshell的适应性重构。在实验初期，生成的Webshell代码通常含有直观且极易被识别的危险函数调用，如 PHP中的典型危险函数eval ( )、assert ( ) 以及 system ( )等。随着实验循环的推进与深入，在后续生成的Webshell样本中，此类危险函数不再直接出现，而是被拆解为多个表面看似无危害的操作，并通过字符串拼接、模拟正常业务功能等方式实现代码的执行。

此外，生成的Webshell文件体积规模呈现出显著增长趋势：初期样本行数相对较少，通常只有几行到几十行代码；而后期样本的代码量则可能达数千行。这些庞大的代码文件中，往往包含着大量看似属于合法业务范畴的功能代码，如图片处理模块、安全过滤组件、服务器资源监控程序等。部分Webshell还会主动将Webshell转为间接执行，如将恶意代码写入另一个文件，以此降低被检测发现的概率；而真正的恶意代码在整个代码文件中所占比例极小，且被极为巧妙地隐匿于正常功能代码之中，极大地增加了检测难度。

3.2 大语言模型（LLM）在Webshell检测端展现应用潜力

本次实验数据显示，LLM在Webshell检测方面展现出应用潜力，有效提升了Webshell的检测识别率；尤其是在面对复杂和变种恶意代码时，LLM展示出了卓越的复杂分析能力，检测Agent对变种攻击的识别率远超传统检测手段。而通过对提示词进行优化，检测率还有望得到更进一步的提升。

当面对采用多重函数嵌套、多样化编码混淆策略或伪装成常规业务功能的Webshell变种时，LLM能够打破基于表面语法特征的分析限制，通过对代码逻辑、代码风格等深层语义的理解，判别代码的实际功能用途，凸显了LLM在语义理解层面的独特优势，为Webshell检测技术的发展开拓了新的路径与方向。

3.3 大语言模型（LLM）在攻防对抗领域的应用存在局限性

通过对Webshell样本以及实验数据的深度核验与分析发现，LLM在Webshell生成与检测过程中暴露出“幻觉” 问题，实际应用成效未达预期。尤其是在复杂情境下，容易出现逻辑推演偏差、对代码语义理解不够深入和精确的问题，这在一定程度上反映了当前AI技术发展的阶段性局限。

在生成测试中，系统自动生成的200个Webshell样本虽均包含危险函数调用等恶意代码特征，但经人工验证发现，仅有19个样本（9.5%）具备真实攻击能力。在其余失效样本中，高达90.5%的样本虽然具备危险函数调用等表面特征，但因代码逻辑存在缺陷或其他原因，在实际攻击场景下难以构成有效威胁。这表明，当前模型在攻击相关代码生成方面尚处于表面的特征模仿阶段，缺乏对代码实际运行的深层逻辑和真实攻防利用场景的深刻理解，在复杂逻辑代码生成和实战化应用层面考量不足。

在检测评估中，模型对同批次样本的识别率达到71%（142/200），优于传统检测方法，表明AI技术在检测方面具备一定的优势和应用潜力。但经深入剖析发现，其中存在特征误判现象：虽然被标记为恶意的142个样本确实呈现出恶意代码特征，但其中有 86.61%（共计 123 个）因生成缺陷导致不可利用，因而并不构成真实威胁。这一结果反映出模型虽具备一定的代码分析能力，但缺乏对代码的完整性、可利用性以及实际威胁性的深度理解。

3.4 提示工程在推理模型中依然重要

实验过程中发现，提示工程在引导大语言模型（LLM）进行Webshell的生成和检测过程中发挥着关键作用。通过精心设计的提示词，可以有效规避模型的安全防护限制，进而成功引导模型生成Webshell代码。同时，通过持续对指令进行优化，可推动模型生成更为复杂、伪装程度更高的Webshell样本。

此外，通过调整检测Agent所使用的提示词，也能够显著提高模型检测的准确率。这表明，提示工程在推理模型中仍然是提升LLM在攻防对抗应用能力的重要手段。

第四章

技术展望

在实验推进过程中，我们聚焦并解决了一些关键技术细节问题，例如上下文窗口限制和反馈处理优化。

（1）上下文窗口限制问题应对：Webshell生成Agent的迭代循环受到大语言模型API上下文窗口长度的限制；为解决此问题，我们采用了滑动窗口方法，有效管理上下文信息，确保模型在有限的窗口长度内，能够充分利用历史数据进行Webshell的优化生成。

（2）反馈处理机制优化：早期实验设计中，曾尝试使用总结Agent归纳多次检测结果，但在实验过程中发现，该方式会导致关键细节丢失进而影响迭代效果。因此，实验舍弃了信息损失明显的总结Agent，直接将每次生成的Webshell和判断依据叠加在生成Agent的上下文窗口，能够更有效地驱动循环迭代，提升了实验效果。

展望未来，我们计划在现有的研究框架基础上，从以下多个维度进一步拓展和深化研究：

（1）多语言代码生成能力的扩展：突破当前PHP单一语言限制，实现对ASPX、JSP等主流服务器端脚本语言的Webshell自动化生成支持，提升Webshell生成Agent的通用性和实用性。

（2）自动化代码验证Agent体系的构建：构建支持多语言的代码服务器，实现对生成代码的功能性、完整性及核心能力的自动化评估与反馈。通过自动化评估与测试，将评估结果反馈，以优化生成策略，提升生成Webshell的实战价值。

（3）检测提示词模板库的构造：构建多维度、可复用的Webshell检测提示词模板库。从隐蔽性、功能完整性、绕过能力等多个维度设计一系列检测提示词模板，并基于实验数据持续优化，提高检测提示词的针对性和有效性，提升检测效率与准确率。

（4）基于对抗数据集的模型微调：利用实验迭代过程中积累的对抗数据，对大模型进行微调，提升大语言模型在攻防对抗场景下的智能化水平。

第五章

结语

本次基于DeepSeek-R1大语言模型的Webshell攻防对抗实验初步表明，大语言模型正在重塑网络安全攻防的动态平衡，驱动网络攻防对抗的螺旋式升级。AI并非单向利器，它的加入促使攻防双方的能力得以同步加速进化，将网络攻防对抗推向更高层级。防御方借助AI构建更坚固的“盾”，攻击方则借力AI磨砺更锋利的“矛”。AI的介入，并非终结攻防对抗的历史进程，而是开启了新一轮更高强度的对抗和智能化程度的攻防博弈。

在当前技术发展阶段，AI尚不能完全取代人类专家在攻防领域的角色，期望其能够完全独立自主地应对解决攻防对抗领域的所有问题尚不现实。将大语言模型定位为强大的辅助工具，在专家的引导与调优下，方能充分发挥其潜力，有效提升安全能力。提示工程与人机协同机制是提升AI安全能效的核心关键要素，如何通过更精细化的提示词、更有效的模型训练策略及更完善的人机协同框架，来克服当前模型在逻辑推理和实战经验方面的局限性，是亟待深入研究和攻克的重要课题。

但可以预见，随着技术的不断精进与应用的深入拓展，AI必将在未来的网络安全攻防领域中占据不可或缺的关键地位。展望未来，网络安全攻防将演变为一场AI驱动、不断进化的长期博弈过程。AI的核心价值，不在于单方面压制对手，而在于整体提升攻防对抗的智能水平，推动对抗向更高层次、更复杂形态演进。

启明星辰积极防御实验室（ADLab）

ADLab成立于1999年，是中国安全行业最早成立的攻防技术研究实验室之一，微软MAPP计划核心成员，“黑雀攻击”概念首推者。截至目前，ADLab已通过 CNVD/CNNVD/NVDB/CVE累计发布安全漏洞6500余个，持续保持国际网络安全领域一流水准。实验室研究方向涵盖基础安全研究、数据安全研究、5G安全研究、AI+安全研究、卫星安全研究、运营商基础设施安全研究、移动安全研究、物联网安全研究、车联网安全研究、工控安全研究、信创安全研究、云安全研究、无线安全研究、高级威胁研究、攻防对抗技术研究。研究成果应用于产品核心技术研究、国家重点科技项目攻关、专业安全服务等。

大语言模型驱动的网络攻防新态势：基于DeepSeek的探索与实践

原文始发于微信公众号（ADLab）：大语言模型驱动的网络攻防新态势：基于DeepSeek的探索与实践

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

大语言模型驱动的网络攻防新态势：基于DeepSeek的探索与实践

1.1 研究背景与意义

1.2 研究方法与实验设计

2.1 实验方案设计

2.1.1 系统架构

2.1.2实验流程

2.2 实验环境与数据准备

2.3 评估方法

2.4 实验结果与分析

2.4.1 Webshell生成与检测效果

2.4.2 LLM未检出样本分析

经分析发现，LLM未检出部分公开Webshell样本的原因在于模型对特定功能文件的判定策略。这些未检出样本主要包括数据库管理工具、服务器状态探针等正常业务功能组件，模型可能将其认定为正常业务功能。

3.1 大语言模型（LLM）驱动Webshell演变，提升攻击效能

3.2 大语言模型（LLM）在Webshell检测端展现应用潜力

3.3 大语言模型（LLM）在攻防对抗领域的应用存在局限性

3.4 提示工程在推理模型中依然重要

AI如何克隆声音？MiniMax的文本转语音揭秘

AI 安全｜DIFY 大模型平台漏洞预警（已复现）

大模型与智能运维的协同框架

快速理解热门LLM大语言模型

AI学会自保，ChatGPT o3模型存在抗拒关闭行为

Mem0,用LLM给智能体解决记忆问题，开源

危险的创新：匆忙上马 AI 项目带来八大安全隐患

MCP 工具中毒攻击

深度研究 | 解构国内外代表性Agentic AI系统风险模型

MCP安全：开源MCP安全网关

发表评论

在线咨询

微信