来自蒙特利尔大学犯罪学学院、Flare Systems公司、维也纳复杂科学中心的Vanessa Clairoux-Tr´epanier等六位作者于不久前发表了一篇名为《The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums》的论文[1]。
论文中使用OpenAI的GPT-3.5-turbo模型,主要评估其在网络犯罪论坛上提取和总结CTI信息的准确性。研究的核心问题在于LLM是否可以取代一线威胁分析师的部分工作,通过自动化处理提高情报提取的效率与准确性。
1、 数据收集:作者从三个网络犯罪论坛(XSS、Exploit.in和RAMP)中随机提取了若干对话。这些论坛是网络威胁情报的重要来源,讨论了与漏洞利用、攻击目标和网络犯罪交易等相关的内容。这些对话被以天为单位分片,共500组分片数据。
2、 LLM系统设计:LLM系统基于GPT-3.5-turbo-16k模型,采用一系列精心设计的提示词,引导模型提取特定的CTI信息。论文中称,提示词设计的关键在于模拟网络威胁分析师的视角,以便识别出讨论中的交易、目标技术或组织、漏洞利用等关键信息。由于提示词篇幅较长,本文不作摘录,感兴趣的读者可以在原论文中找到完整提示词。
3、 结果评估:两名人类分析师各自独立地对模型的输出进行了手动验证,由此评估模型的总体表现。通过分析师之间的互评确保了结果的准确性。
其中,具体提取的关键信息字段列表如下:
*论文中未给出“是否针对主流技术”的结果统计,或为遗漏。
此外,论文也指出了一些模型和方法上存在的不足,笔者认为其中较为主要的包括:
用户讨论中提及历史事件时,LLM容易发生误判。例如,某个主题本身上并没有进行买卖,但其中一名用户在讨论中提及了“一位警官曾经在暗网上售卖假证件”的事件,导致模型将其误判为“涉及交易行为”。
原论文在调用LLM处理对话时,进行了按天分片操作,但有时一段完整的对话可能跨越多日。例如,一位用户在连续几天内讨论了售卖一个数据库的事情,但由于对话被分成了几天,导致模型未能识别出这是一次交易行为。
某些字段的概念本身较为模糊,例如“是否针对大规模组织”,模型对于某个组织算不算“大规模”的判断或与人类有所差异。
此外,原论文还讨论了提示词的时态问题、提取信息之间关联不正确的问题、忽略标题信息的问题等。
关于论文中遇到的问题,以笔者经验,不仅是在实体识别任务中,当输入文本中存在嵌套的上下文表述时,各种LLM似乎都普遍地容易产生混淆。例如在告警研判任务中,可能会出现正常用户提交表单信息中包含对某个安全事件的描述的情况,此时很多LLM都会出现误判。论文中所提及的其它几项问题也都是LLM实践中经常遇到的难点。以笔者见解,将所有问题一股脑地丢给LLM并非良策,LLM实践中经常需要一系列的配套设施来协助进行预处理、后处理等,LLM终究只是庞大工程中的一个单元而已。
此外,原论文中是用GPT3.5进行实验,以当下而言已经是个有点老旧的模型了,或未必能体现出LLM领域的最先进能力。
更多前沿资讯,还请继续关注绿盟科技研究通讯。
如果您发现文中描述有不当之处,还请留言指出。在此致以真诚的感谢。
内容编辑:创新研究院 吴复迪
责任编辑:创新研究院 舒展
原文始发于微信公众号(绿盟科技研究通讯):论文解读:《将LLM用于网络犯罪论坛的威胁情报》
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论