更多安全资讯和分析文章请关注启明星辰ADLab微信公众号及官方网站(adlab.venustech.com.cn)
第一章
1.1 研究背景与意义
在数字化进程持续加速的当下,网络空间已成为关键领域,网络安全的重要性愈发凸显。随着大语言模型(Large Language Model,LLM)技术呈爆发式发展,其在网络安全攻防领域展现出巨大的应用潜力。LLM具备强大的自然语言处理能力,能够高效解析和生成代码,这为深入剖析复杂程序逻辑、精准识别潜在安全漏洞提供了有力支持。同时,以DeepSeek-R1为典型代表的模型展现出卓越的推理能力,使其可模拟攻击者的思维,预测攻击链条,为长期处于胶着状态的网络攻防对抗带来了全新的视角与方法。
本研究旨在通过深入探索LLM在网络攻防实战对抗中的应用,特别是在网络攻防长期存在技术不对称的背景下,探究AI技术融入攻防对抗时所可能引发的变革新态势,探寻AI辅助的防御手段对基于AI增强攻击的应对能力。这不仅有助于加深对网络攻防新态势的理解,还能为推动安全技术创新发展、构建更稳健的网络安全防护体系提供实践依据。
1.2 研究方法与实验设计
(1)Webshell特性与LLM能力的高度匹配:Webshell作为一种常见的恶意代码形式,其生成和检测都高度依赖代码能力,这与LLM在代码生成和理解方面的优势天然契合。
(2)Webshell攻防的演进性:Webshell攻击作为一种经典的、持续演进的网络威胁,其攻防对抗本身就具有挑战性和创新性。选取Webshell作为实验对象,既能检验LLM在解决现有安全问题上的能力,还能前瞻性地探索AI技术可能为未来攻防对抗带来的新思路和方法。
(3)Webshell攻防的复杂性与对抗性:Webshell攻防的复杂性和对抗性,为观察AI在更复杂安全场景下的表现提供了良好的平台。
2.1 实验方案设计
为了能够更加系统地了解和评估LLM在Webshell生成和检测方面的潜力与表现,本研究设计并构建了一个包含两个核心Agent的原型系统,用于模拟实时演进的Webshell攻防对抗过程。
2.1.1 系统架构
系统由两个Agent组成,均基于DeepSeek-R1模型构建:
(1)Webshell生成Agent:该Agent负责自动生成各类Webshell代码,并根据Webshell检测Agent的反馈结果进行迭代优化,以提升再生成Webshell的对抗能力。
(2)Webshell检测Agent:该Agent作为检测引擎,利用提示词工程及DeepSeek-R1预训练模型的基础能力,识别和分析可疑代码,判断其是否为Webshell。
2.1.2实验流程
原型系统按照以下流程进行攻防对抗实验:
(1)初始化生成:Webshell生成Agent利用预置提示词生成初始的Webshell代码。
(2)提交检测:生成的Webshell代码被提交至Webshell检测Agent进行分析和检测。
(3)结果反馈:检测Agent返回检测结果,包括是否判定为Webshell以及判断依据。
(4)策略调整与迭代:生成Agent根据检测结果和反馈信息,调整生成策略,改进并生成Webshell代码。
(5)循环迭代:重复步骤2-4,形成Webshell生成与检测的循环对抗过程,如下图所示。
基于DeepSeek的原型系统攻防对抗流程
2.2 实验环境与数据准备
为确保实验的一致性和可比性,生成Agent和检测Agent均采用DeepSeek-R1官方API。
实验所用的Webshell检测数据集由两部分构成:
(1)公开Webshell样本集:从GitHub等代码托管平台收集的3317个各类公开Webshell样本,用于评估LLM对已知Webshell的检测能力。
2.3 评估方法
为更加客观地评估LLM在Webshell生成和检测方面的潜力,实验采取准确率评估的方法,并开展对照试验。
(1)对照组1:对照公开Webshell样本和Agent生成的复杂Webshell样本的被检出情况,以评估LLM是否有助于提升Webshell生成侧的能力。
2.4 实验结果与分析
2.4.1 Webshell生成与检测效果
在Webshell生成方面,生成Agent累计生成了200个复杂Webshell样本。在检测方面,对于生成Agent生成的200个Webshell样本,检测Agent识别出142个(准确率71%),而传统的规则引擎仅识别出60个(准确率30%)。对于3317个已知公开Webshell样本,LLM检测Agent的准确率达到93.21%,传统规则检测引擎的准确率为82.48%。
实验数据表明:
(1)通过生成Agent生成的200个WebShell样本,其被检出率远低于公开Webshell样本的被检出率。
(2)无论是公开Webshell样本还是由Agent动态生成的复杂Webshell样本,检测Agent对其的识别率较传统第三方工具都有明显提升。
2.4.2 LLM未检出样本分析
经分析发现,LLM未检出部分公开Webshell样本的原因在于模型对特定功能文件的判定策略。这些未检出样本主要包括数据库管理工具、服务器状态探针等正常业务功能组件,模型可能将其认定为正常业务功能。
本实验初步揭示了人工智能(AI)介入网络攻防对抗的可行性与潜在问题,并为后续研究提供了有价值的启示。
3.1 大语言模型(LLM)驱动Webshell演变,提升攻击效能
此外,生成的Webshell文件体积规模呈现出显著增长趋势:初期样本行数相对较少,通常只有几行到几十行代码;而后期样本的代码量则可能达数千行。这些庞大的代码文件中,往往包含着大量看似属于合法业务范畴的功能代码,如图片处理模块、安全过滤组件、服务器资源监控程序等。部分Webshell还会主动将Webshell转为间接执行,如将恶意代码写入另一个文件,以此降低被检测发现的概率;而真正的恶意代码在整个代码文件中所占比例极小,且被极为巧妙地隐匿于正常功能代码之中,极大地增加了检测难度。
3.2 大语言模型(LLM)在Webshell检测端展现应用潜力
当面对采用多重函数嵌套、多样化编码混淆策略或伪装成常规业务功能的Webshell变种时,LLM能够打破基于表面语法特征的分析限制,通过对代码逻辑、代码风格等深层语义的理解,判别代码的实际功能用途,凸显了LLM在语义理解层面的独特优势,为Webshell检测技术的发展开拓了新的路径与方向。
3.3 大语言模型(LLM)在攻防对抗领域的应用存在局限性
在检测评估中,模型对同批次样本的识别率达到71%(142/200),优于传统检测方法,表明AI技术在检测方面具备一定的优势和应用潜力。但经深入剖析发现,其中存在特征误判现象:虽然被标记为恶意的142个样本确实呈现出恶意代码特征,但其中有 86.61%(共计 123 个)因生成缺陷导致不可利用,因而并不构成真实威胁。这一结果反映出模型虽具备一定的代码分析能力,但缺乏对代码的完整性、可利用性以及实际威胁性的深度理解。
3.4 提示工程在推理模型中依然重要
启明星辰积极防御实验室(ADLab)
ADLab成立于1999年,是中国安全行业最早成立的攻防技术研究实验室之一,微软MAPP计划核心成员,“黑雀攻击”概念首推者。截至目前,ADLab已通过 CNVD/CNNVD/NVDB/CVE累计发布安全漏洞6500余个,持续保持国际网络安全领域一流水准。实验室研究方向涵盖基础安全研究、数据安全研究、5G安全研究、AI+安全研究、卫星安全研究、运营商基础设施安全研究、移动安全研究、物联网安全研究、车联网安全研究、工控安全研究、信创安全研究、云安全研究、无线安全研究、高级威胁研究、攻防对抗技术研究。研究成果应用于产品核心技术研究、国家重点科技项目攻关、专业安全服务等。
原文始发于微信公众号(ADLab):大语言模型驱动的网络攻防新态势:基于DeepSeek的探索与实践
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论