私有大模型不是安全管理的银弹

admin 2024年3月26日00:21:53评论8 views字数 3094阅读10分18秒阅读模式

背景

随着漏洞数量日益增多,安全管理需要越来越多的结构化数据。除了漏洞的文本描述外,安全工程师还必须对漏洞进行分类和评估,并阐明它们用到的技术。

漏洞描述映射(VDM)指的是将漏洞映射到通用弱点枚举(Common Weakness Enumeration,CWE)通用攻击模式枚举与分类(Common Attack Pattern Enumeration and Classification,CAPEC)ATT&CK和其他分类的过程。准确的VDM对于减轻安全管理压力并提高安全应急响应速度至关重要。

Not The End of Story: An Evaluation of ChatGPT-Driven Vulnerability Description Mappings这篇文章将探讨ChatGPT在VDM任务上的表现。结果显示,虽然ChatGPT在某些任务上可能接近于人类专家的水平,但仍然无法取代专业安全工程师在漏洞分析中的关键角色。总之,闭源LLM不是银弹。

漏洞描述映射现有方法

现在的漏洞描述映射(VDM)是由安全研究者人工标记的,人工标记就会存在准确率和延迟等问题。近年来,安全研究人员尝试通过应用自动化技术来解决这个问题。

Kenta等人尝试使用基于自然语言处理(NLP)的方法,利用CAPEC文档与CVE描述之间的相似性,来确定CAPEC-ID候选项与给定的CVE-ID之间的联系。Hemberg等人使用了最先进的预训练语言模型RoBERTa,并提出了一种精调和自我知识设计来提高模型在F1的性能。这两项工作都使用了NLP进行分析和映射。

Yosra等人提出了一种多标签分类方法,自动将漏洞映射到攻击技术,并评估了一组机器学习算法以找出最佳方法。CVE2ATT&CK方法更专注于数据集的处理。这项工作提出了一种数据收集方法,来构建带有所有相应ATT&CK模式注释的CVE数据集,并解决了数据集严重不平衡的问题。

大模型时代下的漏洞描述映射

有人认为,大型语言模型可以直接解决特定细分领域的自然语言处理问题。那漏洞描述映射这个问题是否能直接被大模型解决呢?

为了评估ChatGPT在漏洞描述映射(VDM)任务上的性能,论文设计了一个评估框架,并针对两种任务类型(Vulnerability-to-CWE和Vulnerability-to-ATT&CK)构建了基于CVE的三个数据集。

[测试框架]

私有大模型不是安全管理的银弹

上图是这篇文章提出的测试框架。它将Prompt和CVE的漏洞描述发送给ChatGPT,根据其返回结果来评估其性能表现。

论文分别用弱prompt和强prompt测试ChatGPT的性能表现。

弱prompt:直接提问“此漏洞描述与哪个CWE-ID匹配?”,并附上漏洞描述。

强prompt:首先要求ChatGPT据漏洞描述提供五个可能的类别及其定义。然后要求ChatGPT从它们中找到最合适的一个。

理想中的强prompt应该完整的分类标准,但由于模型的token限制,这样做不可行。因此论文中使用了思维链的方式,让ChatGPT先选5个最接近的类别,再选一个最可能的类别。

数据集

1. CVE-CWE:该数据集涵盖了2021年所有CVE数据(CVE-2021-*),包含13,513 个漏洞。数据集包括三个字段:CVE-ID、漏洞描述和CWE-ID。

2. CVE-ATT&CK:该数据集是CVE-ATT&CK Technique数据集涵盖2021年的7,013个CVE漏洞 (CVE-2021*),包含三个字段:CVE-ID、漏洞描述和ATT&CK Technique ID。

3. CVE-ATT&CK-builtOnBRON:该数据集是基于BRON构建的CVE-ATT&CK技术数据集由三个字段组成:CVE-ID、漏洞描述和ATT&CK Technique ID列表。

评估结果

CVE-ID映射效果

[基于数据集1的CVE-ID映射效果]

私有大模型不是安全管理的银弹

上表是ChatGPT在弱prompt和强prompt情况下对CVE-ID识别的情况,可以看到只有一半的漏洞CWE-ID可以通过ChatGPT准确确定。

ATT&CK Technique ID映射效果

ATT&CK Technique 映射是论文的主要评测目标,因为目前缺乏ATT&CK Technique 映射的公开数据集,所以ChatGPT几乎无法直接从现有数据集中获取这些知识,这使得ChatGPT更能代表其在缺乏高质量训练数据的情况下处理VDM任务的能力。

ChatGPT在实验中可能会返回多个ATT&CK Technique:如果ChatGPT给出的唯一ATT&CK技术ID与数据集II中的相同,我们将其标记为“严格相等”;如果ChatGPT给出的结果中包含数据集II中的ATT&CK技术ID,我们将其标记为“相交”。

[基于数据集2的ATT&CK Technique ID映射效果]

私有大模型不是安全管理的银弹

[基于数据集3的ATT&CK Technique ID映射效果]

私有大模型不是安全管理的银弹

上表是ChatGPT在数据集CVE-ATT&CK和CVE-ATT&CK-builtOnBRON下对ATT&CK技术ID映射的结果。可以看到,ChatGPT在CVE-ATT&CK任务上的表现很不理想。

现有方法的效果

[现有方法在数据集3的表现效果]

私有大模型不是安全管理的银弹

我们可以看到,现有方法的性能明显优于ChatGPT。这表明由ChatGPT代表的闭源LLMs很难赶上现有最先进方法在漏洞描述映射方面的性能。由于GPT-2的表现良好,论文认为ChatGPT性能不佳的主要原因是缺乏面向任务的精细调整。看起来,真正的未来是开源面向任务的精细调整的LLMs,而不是闭源的。

讨论

ChatGPT 在漏洞映射到 CWE 任务上的表现非常有前景,但在漏洞映射到ATT&CK任务上效果并不好。文章还分析了ChatGPT对ATT&CK Techniques 的理解定义,发现ChatGPT对许多ATT&CK Techniques的定义有着许多误解。

通过提供先验知识或预定义,可以改善ChatGPT在诸如漏洞到ATT&CK等复杂VDM任务上的性能。文章表明ChatGPT目前仍然不适用于VDM任务,这个方向的研究并未到达终点。

关于馗安社

欢迎大家关注馗安社(兴趣的可以加VX:WanZQiu咨询了解),我们的成员简介(按姓氏拼音):

成员

简介

戴中印

目前在美团从事业务安全对抗、情报分析、黑灰产打击等(之前做过SDL+移动安全)

js0huang

安全研究员,研究方向为二进制漏洞自动化挖掘和利用以及工业控制系统安全研究,多次获得SiemensSchneiderSAP等安全致谢

Bird

兰州大学信息科学与工程学院副教授、硕士生导师,主要从事代码安全和 AI 对抗研究

于长奇

字节跳动隐私合规专家,专注移动端合规技术和解决方案,如违规收集个人信息,自启动等。曾从事过内核安全、java安全和Api安全

杨坤

御林安全负责人,蚂蚁金服和美团SRC年度TOP白帽子,专注自动化漏洞挖掘和web3领域

赵永福

网商银行办公安全负责人,主要研究方向为可信纵深防御、信创安全研究、数据安全与合规

本期作者

本期分享作者:@Bird,Page: https://bird.vin/

来自作者的话:这篇文章是我们去年在 ACL 2023 上发表的一项工作,测评目标是早期的 ChatGPT。不过,近期文献和评估结果显示本文提到的问题并没有被解决。本文并非否认 LLMs 对于安全研究和工程实践的重要意义,而是在告诉大家我们(暂时)还没有被 AI 统治呢~最后感恩谭源同学帮忙着写本子的我搞了这篇推文~

感兴趣可以交个朋友(加好友请附加备注)

私有大模型不是安全管理的银弹

原文始发于微信公众号(馗安社):私有大模型不是安全管理的银弹

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年3月26日00:21:53
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   私有大模型不是安全管理的银弹https://cn-sec.com/archives/2603124.html

发表评论

匿名网友 填写信息