面向威胁情报的大语言模型技术

admin 2024年9月24日10:49:59评论10 views字数 2305阅读7分41秒阅读模式

威胁情报(Threat Intelligence, TI)的早期实践起源于军事领域, 在这一阶段, 人类决策者和专家指导、收集、处理情报并将其传播给其他相关利益方。

网络威胁情报是关于现有或潜在的威胁信息, 经过采集、处理和分析, 包含了攻击场景、机制、技术指标和可采取行动的建议等, 能够辅助组织对网络威胁进行分析决策和响应。

威胁情报是对各种网络安全数据采用多技术手段进行深入挖掘, 关联分析后产生的分析结果。威胁情报能有效缩短攻击响应时间、减小攻防不对称性和发现预测新型威胁, 是政府企业一直竭力获取的网络安全战略资源。

威胁情报是从安全数据中提炼的与网络空间威胁相关的信息, 包括威胁来源、攻击意图、攻击手法、攻击目标信息, 以及可用于解决威胁或应对危害的知识。CTI 以空间换时间, 知己知彼, 协同联动, 可用于入侵防御、威胁发现、攻击溯源、态势感知及预警、主动防御等业务场景, 显著提升网络空间安全防御能力。

面向威胁情报的大语言模型技术

根据情报价值及其获取的难易程度, 制作一个名为“痛苦金字塔”的层次模型以描述威胁情报体系, 如图 1 所示。该模型从下到上依次为: 文件哈希、IP 地址、域名信息、网络或主机特征、攻击工具和 TTPs(Tactics, Techniques & Procedures, 战术、技术和过程)。其中哈希值、IP 地址、域名这种低层级威胁指标较易获取, 常被加入特征库用于对比检测恶意样本, 属于传统失陷指标(Indicator of Compromise, IOCs)类型。这类指标攻击者可通过沙箱和数据分析等自动化手段生成, 轻易改变网络特征就能逃避检测, 且失效快, 关联性差, 价值也较低。相比之下, 金字塔上层的网络或主机特征、攻击工具和 TTPs 等高级威胁信息通常需要人工分析研判才能得出, 且攻击者不易改变攻击手法和攻击工具的特征, 具有较强的关联关系和更高的价值。当防御者掌握这些指标, 就会给攻击者带来一定程度的攻击代价或痛苦。    

01

威胁情报分类

可以按照情报服务对象将情报分为 战略威胁情报、运营威胁情报和战术威胁情报。战略威胁情报主要帮助组织的管理者了解当前安全态势并做出安全决策, 涵盖了网络活动或攻击趋势 等带来的影响以及威胁活动的历史数据或预测。运营威胁情报主要帮助安全分析师或者安全事件响应 人员分析及响应, 包括已知或即将发生的攻击信息如利用已知的攻击者技战术手法, 主动的查找攻击 相关线索。战术威胁情报主要用于发现威胁事件以 及对报警确认或优先级排序, 一般应用于防护系统或设备。代表性的是失陷检测指标、攻击指征, C&C(Command & Control Server, C2)地址、IP 黑名单, 都是可机读的情报, 可自动完成威胁发现, 甚至通过联动实现威胁阻断。

威胁情报生命周期可以大致划分为威胁情报计划定向、威胁数据收集、威胁数据处理、威胁情报分析、威胁情报传播、威胁情报反馈六个阶段

威胁情报分析作为整个生命周期的关键环节,涵盖了威胁情报信息提取识别, 威胁情报自动生成和知识图谱构建三大方面。

威胁情报应用按照时序事前事中事后可以分为网络攻击威胁预测、网络攻击威胁检测和网络攻击威胁溯源等关键阶段。大语言模型在这些阶段中扮演着重要的赋能角色。

02

大语言模型

大语言模型主要应用于自然语言处理领域, 能够很好地完成文本生成、对话问答、智能检索、机器翻译等任务。

大语言模型的涌现能力可以体现在以下几个方面:

(1)上下文学习: 175B 参数的 GPT3 在许多复杂的 NLP 任务上如问答、机器翻译、文章生成等表现较好, GPT1 GPT2 则表现不佳, 这展现出大语言模型在理解和处理上下文方面的优势。

(2)指令遵循: 通过对自然语言描述格式的多任务数据集进行微调(称为指令微调), LLMs 能够在同样以指令形式描述的新任务上表现出色。通过指令微调, LLMs 可以在不使用具体示例的情况下, 根据任务指令完成新任务, 从而提高泛化能力。

(3)逐步推理: 小模型很难解决涉及多个推理步骤的复杂任务。相比之下, 大模型可以通过思维链 (Chain-of-Thought, CoT)提示策略[29], 将多步骤的复杂任务分解成一系列中间推理步骤, 为模型行为提供可解释的窗口, 从而显著地提高大语言模型的推理能力, 有效地解决复杂任务。

威胁情报聚合是指将各类网络安全数据作为输 入, 输出可以进行下一步分析处理的威胁情报基础信息。威胁情报的聚合包括情报数据的自动采集、情报预处理、情报评估融合等步骤, 大语言模型的引入对这一流程产生了一定影响, 能够有效增强情报的收集和整合。

面向威胁情报的大语言模型技术

面向威胁情报的大语言模型技术

面向威胁情报的大语言模型技术    

其中内部情报要源于内部组织掌握的数据, 包括安全设备防火墙、 入侵检测系统(Intrusion-detection system, IDS)、入侵防护系统(Intrusion-prevention system, IPS)、高交互蜜 罐、沙箱等产生的安全日志数据, 安全专家、SIEM (Security information and event management, 安全信息和事件管理)等分析得出的安全事件信息和交换机 路由器等流量监测数据。

外部情报主要是源于安全博客、CVE(Common Vulnerabilities & Exposures, 通用漏洞和风险)漏洞库、社交媒体 Twitter、暗网等开源威胁情报, 和各大安全厂商付费的商业情报数据。

内部网络安全情报的监测采集主要源于入侵检测系统、网络流量检测、蜜罐等技术手段。入侵检 测被动防御采集的异常数据和蜜罐主动式防御获取的数据, 虽然本身并不直接解释攻击者的完整路径, 但通过分析挖掘, 可以获取攻击者的行为模式、攻击技巧和使用的恶意软件特征等有价值的情报信息。    

原文始发于微信公众号(安全架构):面向威胁情报的大语言模型技术

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年9月24日10:49:59
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   面向威胁情报的大语言模型技术http://cn-sec.com/archives/3201649.html

发表评论

匿名网友 填写信息