GPT在安全领域是否也那般神奇（下）

admin

144123
文章

118
评论

2024年3月25日07:44:53评论69 views字数 3804阅读12分40秒阅读模式

上篇分享了生成式预训练Transformer模型技术原理和模型整个的训练过程，本篇我们详细介绍下大模型在安全垂直领域到底有哪些应用场景，以及不同场景下带来的变量和智能化程度。（本文主要聚焦威胁分析、处置、运营场景）

GPT在安全领域是否也那般神奇（下）

通用场景应用（简单）

上篇讲过大模型通过语料预训练后能够具备自然语言理解能力，以至于其能够使用自然语言交互来胜任一些问答，翻译，总结、摘录工作。那在这个基础上我们可以通过少量安全语料的微调，就可以在安全场景从事问答、翻译、总结、摘录工作。

自然语言交互问答：

当我们把安全语料预训练给模型，并预设好在不同场景的数据查询机制，通过模型挂载众多数据源，那么GPT就可以变成一个安全领域的专家，在该模式下我们就具备了一个安全领域的问答系统。通过模型提供24/7的安全咨询，回答用户安全相关问题，亦或是作为一线的安全支持，减轻安全团队的工作负担。

翻译（生成）：

受益于语言模型本身就擅长的翻译能力（生成的一种），将一种语言文本翻译成另一种语言也是很成熟的应用场景，当然在安全领域这个语言可以是“代码，指令，攻击数据包，以及我们平时较难理解的一系列文本类信息”，常见的应用场景包括：告警数据包解读，漏洞信息解读，情报信息解读等复杂内容解释工作。

自然语言指令输入：

同样也是应用到模型的翻译能力，我们可以通过输入自然语言代替复杂的命令和大量的点击动作，常见的应用场景包括：数据检索，响应处置，策略配置，剧本制定等。就拿数据检索举例:不同搜索引擎的语法相对复杂，想进行更复杂的查询往往都需要有较高的技能门槛，而基础的精确匹配查询方式很多时候也不能帮助用户找到关心的数据内容，而大语言模型对语义的相关性有较强的识别能力，在有效降低数据查询门槛的同事极大的提升结果准确性。

总结/摘录：

当我们在开展安全工作时，往往需要搜集较多数据进行总结安全态势，或者从大量的原始威胁/风险信息中摘录出关键项，而总结和摘录也是大语言模型擅长的领域。常见的应用场景包括：安全报告总结（风险和威胁态势总结，攻击趋势总结），威胁情报信息提取并生成情报内容摘要，风险/告警威胁实体提取等。

安全领域会对话的玩具 VS 变革的引擎

而从应用的演进路线看，大模型在垂直场景应用的过程中，一定是需要从“信息生成”转向“信息合成”，一个只是能简单问答、翻译的系统远远无法给现有的安全工作带来质的改变。月初的时候有集中和一些银行用户交流：短期大家还是以看新玩具的心态在了解GPT带来的技术改变，而在清楚的计算拥有成本和解决问题的投资比后就会回归理性。核心在于面向用户安全领域那些长期没被解决好的问题，AI是否带来了新变量！以及垂直领域内是不是有像chatGPT那样爆款且高度智能化的模型。

如果说安全领域的痛点，无非还是那些老生常谈的问题 “检测能力如何水涨船改，海量告警如何有效研判，风险和威胁如何精准定性和调查溯源，威胁如何有效高效处置闭环，人才缺失如何弥补，组织效率如何提高” ，那接下来我们就从这些问题分析下GPT能做哪些事。

检测领域相关：

AI应用于安全检测领域已经很成熟，以往AI决策模型解决了很多像'未知/变种样本'、'异常/隧道通信'、'流量异常'、'优化特征检测能力'等场景问题。而随着大模型技术的发展，得益于GPT在语言处理上的明显优势，给“语言类，文本类”攻击的检测带来了极大变量，尤其像近年一直解决不好的未知漏洞攻击，混淆的web攻击，邮件/IM钓鱼攻击等。但想要解决一个检测场景，也就意味一类语料的数据训练和一个场景的持续微调学习。

以web类攻击为例：针对web类检测，模型的能力强大与否很大程度上取决于其训练数据集。而训练过程需要收集大量的正常Web请求数据和恶意Web攻击数据，一方面需要提取出有助于模型学习的特征：包括请求方法（GET、POST等）、URL结构、参数名称和值、HTTP头部信息、用户代理字符串等，用于帮助模型更好地理解请求的语义和结构。另一方面还需要训练模型的推理能力，例如：从报文的get请求路径中理解攻击对象资产+从报文内容理解攻击执行动作+从实体信息判断域名和IP情况+从数据回包判断响应意图+业务常识判断数据异常。该逻辑放到钓鱼邮件、未知漏洞攻击原理也都是一样的，无非就是数据语料和推理的思维知识不一样而已。

下图是Abnormal发布的使用 AI 生成的钓鱼邮件，以及通过GLTR 工具判断邮件中哪些部分“高概率由人工智能生成”。除此外，如果通过'钓鱼邮件专项语料'预训练的GPT模型，还可以从发件人、邮件场景、链接网页识别等多个维度推理来识别该钓鱼邮件。

GPT在安全领域是否也那般神奇（下）

图片来源：Abnormal

GPT在安全领域是否也那般神奇（下）

风险/威胁决策分析：

海量告警/脆弱性研判、攻击成功与否判定、威胁意图判定、攻击路径分析、攻击影响面分析等这些问题，我们可以将它们统称为风险/威胁决策分析。而为了解决这些问题，安全领域衍生出了许多工程化的方法，如告警关联以减少告警量、上下文分析以判定攻击成功与否/威胁意图、情报工程以判断攻击性质、数据调查和规则筛选以判断影响面等。可以说安全厂商较大的技术投入和甲方安全运营较大的精力投入也集中在这些领域。

假设数据和算力有保障的前提下，GPT将彻底改变这部分的技术投资。得益于GPT自然语言理解和推理能力，使其能够结合海量语料数据进行复杂场景分析，例如能够关联多个上下文数据，通过学习到的安全语料和逻辑推理知识判断攻击意图或结果，还能通过数据关系实现复杂场景下的数据聚合。进而有效解决安全领域中告警意图难以判定、强依赖人工或自定义规则串联数据关系、以及数据聚合率低导致的告警量大等问题。

在传统模式下我们需要培养众多安全工程师来提取告警特征，结合他们的研究知识，编写聚合/关联告警/定性的规则和引擎，并不断人工优化引擎以减少误报和漏报。而在GPT模式下，这一过程变为：培养安全人员收集海量告警数据进行特征提取和标注，整理输出样例并附上知识推理过程，然后将其输入模型进行训练，同时通过监督学习和奖励机制不断微调模型效果。这两个过程看似差不多，但实际上在运行效率和泛化能力上有着质的飞跃，尤其是模型语料数据和推理能力越来越多的时候。

A. 首先与传统引擎不同，GPT不依赖统一的数据标准即可进行分析计算，只需学习过相关语料数据即可，因此之前安全大数据分析遇到的数据对接/ETL问题在大模型数据分析模式下将自然得到解决。

B. 其次模型可以利用预训练中学习到的推理知识进行综合数据关联，在具体分析中可以将多个过程关联起来，例如：网络报文判定后可以结合IP情报调用来综合判定网络告警结果，之后根据网络数据判定情况进一步调用端点数据举证查询，亦或者通过多点数据自动化调查代替关联分析，总之在思维链下模型的关联逻辑可以是多样化组合的。

C. 再者由于模型强大的语料理解和生成能力，它能够识别复杂的模式和关联常识，甚至是在数据中未明显定义的模式，从而适应新的关联场景，并且上线后也可以通过人工反馈持续进行输出结果微调。

提高运营效率/降低运营专业性：

核心解决这个问题追根到底无非两种手段：一是简化复杂的工作，二是将重复性工作自动化。

在处理繁琐的操作和运维流程时，可以借助语言交互提高工作效率。例如，对于只有专家才能理解的告警信息、运营人员需要掌握的专业而复杂的指令、通常需要花费大量时间进行统计查询和总结的信息，而在GPT技术的支持下，这些任务可以转化为自然语言交互，从而降低运营人员的技术门槛，使非专业人员也能快速上手，同时也能大大提高工作效率。

而像漏洞/告警分析研判，处置执行等重复的日常运营工作，一旦GPT掌握了相应的研判逻辑和思维链，这些重复性的工作就可以实现自动化。例如自动分析所有的告警并给出判断结论，自动响应和执行预设的应急预案。

无论是自然语言交互还是自动执行，模型具备的安全场景知识决定了模型的智能，而语料/知识越小众，越无法复用通用模型训练好的智能，而场景越通用，越可以简单微调模型来获得应用。

总结

无论是更强的检测，还是深度的安全分析辅助运营决策，亦或是智能化的开展安全运营辅助/自动化执行任务，为了超越传统规则、引擎、剧本的效果，GPT需要大量的标注数据进行训练。除此之外，还需要构建完善的知识集用于帮助模型理解安全场景下，这些数据的上下文和关联性，以及理解场景推理过程。此外，训练这些数据还需要大量的计算资源，以及人工干预持续微调优化。与此相比，仅仅在一个通用大模型之上进行简单预训练/设计Prompt，使其具备基础的安全问答、翻译、命令执行能力，这两类所需的投资是完全不同的。但是通用模型少量微调就能解决部分场景问题的性价比也是让人眼红的。

甲方投资建议

甲方在进行建设投资时，建议从安全场景出发，无论模型原理吹得天花乱坠，具体效果都是建立在对于一个场景的数据积累和模型持续训练上才能获得足够的智能。而另一方面也要从自身数据出发，一是支持模型能开展工作的基础数据（模型需要挂载或者调用的数据），二是基于模型基础之上开展进一步训练的数据。就现在的算力成本和模型情况看，短期不建议盲目开展进一步预训练，反而更应思考如何借助通用GPT模型具备的通用知识，快速构建出适合自身业务的系统应用，产出反而更快一些。

GPT在安全领域是否也那般神奇（下）

举例：不同应用场景-需要准备的数据和基础设施环境

今天主要就分享这么多，欢迎交流！

原文始发于微信公众号（随风四千里）：GPT在安全领域是否也那般神奇（下）

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

GPT在安全领域是否也那般神奇（下）

信息安全漏洞周报【第026期】

Microsoft修复无法访问的Windows Server域控制器

Microsoft Copilot中的严重缺陷可能允许零点击攻击

Windows SMB高危漏洞分析：Kerberos缺陷导致攻击者可获取SYSTEM权限

深度揭秘：你点的我不是机器人，可能正在喂养一个庞大的黑暗广告科技帝国！

网安原创文章推荐【2025/6/14】

Discord邀请链接劫持传播病毒，加密货币钱包面临严峻威胁

英国教育巨头 Pearson 遭遇网络攻击，客户数据泄露

热门Selenium库WebDriverManager曝出CVSS 9.3分的严重XXE漏洞

西捷航空调查破坏内部系统的网络攻击事件

发表评论