《将LLM用于网络犯罪论坛的威胁情报》

2024年10月30日19:17:43评论60 views字数 2383阅读7分56秒阅读模式

一. 背景

近年来，随着人工智能的快速发展，大语言模型（LLM）已在多种应用场景中展现出其强大的文本生成与处理能力。网络犯罪论坛作为网络威胁信息的关键来源，汇聚了大量关于网络攻击手段、漏洞利用、黑客活动等情报。然而，人工分析大量论坛对话不仅费时费力，还容易遗漏关键信息。因此，研究如何使用LLM有效提取和分析这些对话内容，对网络威胁情报（CTI）具有重要的现实意义。

来自蒙特利尔大学犯罪学学院、Flare Systems公司、维也纳复杂科学中心的Vanessa Clairoux-Tr´epanier等六位作者于不久前发表了一篇名为《The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums》的论文[1]。

论文中使用OpenAI的GPT-3.5-turbo模型，主要评估其在网络犯罪论坛上提取和总结CTI信息的准确性。研究的核心问题在于LLM是否可以取代一线威胁分析师的部分工作，通过自动化处理提高情报提取的效率与准确性。

二. 论文概述

原论文中的实验过程主要包括以下三个部分：

1、数据收集：作者从三个网络犯罪论坛（XSS、Exploit.in和RAMP）中随机提取了若干对话。这些论坛是网络威胁情报的重要来源，讨论了与漏洞利用、攻击目标和网络犯罪交易等相关的内容。这些对话被以天为单位分片，共500组分片数据。

2、 LLM系统设计：LLM系统基于GPT-3.5-turbo-16k模型，采用一系列精心设计的提示词，引导模型提取特定的CTI信息。论文中称，提示词设计的关键在于模拟网络威胁分析师的视角，以便识别出讨论中的交易、目标技术或组织、漏洞利用等关键信息。由于提示词篇幅较长，本文不作摘录，感兴趣的读者可以在原论文中找到完整提示词。

3、结果评估：两名人类分析师各自独立地对模型的输出进行了手动验证，由此评估模型的总体表现。通过分析师之间的互评确保了结果的准确性。

其中，具体提取的关键信息字段列表如下：

表1 所提取的关键信息字段列表

而最终结果准确率统计如下：

表2 最终结果准确率统计

结果可见LLM在提取和总结CTI信息时表现出高度的准确性，平均准确率达到了98%，在某些字段上甚至达到了100%。

*论文中未给出“是否针对主流技术”的结果统计，或为遗漏。

三. 遇到的问题

此外，论文也指出了一些模型和方法上存在的不足，笔者认为其中较为主要的包括：

3.1

不擅长处理故事

用户讨论中提及历史事件时，LLM容易发生误判。例如，某个主题本身上并没有进行买卖，但其中一名用户在讨论中提及了“一位警官曾经在暗网上售卖假证件”的事件，导致模型将其误判为“涉及交易行为”。

3.2

数据分片的重要性

原论文在调用LLM处理对话时，进行了按天分片操作，但有时一段完整的对话可能跨越多日。例如，一位用户在连续几天内讨论了售卖一个数据库的事情，但由于对话被分成了几天，导致模型未能识别出这是一次交易行为。

3.3

处理模糊或泛化概念的问题

某些字段的概念本身较为模糊，例如“是否针对大规模组织”，模型对于某个组织算不算“大规模”的判断或与人类有所差异。

3.4

LLM本身的局限性

尽管LLM的表现总体优秀，但仍存在一些无法解释的错误。例如，在一段对话中，用户讨论了一种可以远程控制目标机器的工具，模型未能识别出这是一次初始访问的交易。

此外，原论文还讨论了提示词的时态问题、提取信息之间关联不正确的问题、忽略标题信息的问题等。

四. 参考评价

LLM取得这样的高准确率也是意料之中。与原论文无关地，笔者此前也尝试过一些将LLM用于关键信息提取的实验。这类任务有点像是传统NLP领域的实体识别或指代消解，但实际场景可能更加复杂一些。不过，这些实验的结论与原论文一致，认为在不涉及推理（或推理程度很浅）的情况下，LLM从长文本中提取关键信息的能力确实出类拔萃。论文中将LLM用于网络犯罪论坛的威胁情报收集，确实是专业对口。

关于论文中遇到的问题，以笔者经验，不仅是在实体识别任务中，当输入文本中存在嵌套的上下文表述时，各种LLM似乎都普遍地容易产生混淆。例如在告警研判任务中，可能会出现正常用户提交表单信息中包含对某个安全事件的描述的情况，此时很多LLM都会出现误判。论文中所提及的其它几项问题也都是LLM实践中经常遇到的难点。以笔者见解，将所有问题一股脑地丢给LLM并非良策，LLM实践中经常需要一系列的配套设施来协助进行预处理、后处理等，LLM终究只是庞大工程中的一个单元而已。

此外，原论文中是用GPT3.5进行实验，以当下而言已经是个有点老旧的模型了，或未必能体现出LLM领域的最先进能力。

五. 后记和展望

总体而言，论文认为，通过LLM的帮助，威胁分析师可以更快地识别出网络犯罪论坛中讨论的关键威胁情报，包括哪些行业和技术是攻击目标、是否涉及大规模组织或关键基础设施等。虽然方法上仍然存在一些问题，该研究仍为未来的CTI自动化提供了重要的方向。

更多前沿资讯，还请继续关注绿盟科技研究通讯。

如果您发现文中描述有不当之处，还请留言指出。在此致以真诚的感谢。

参考文献

[1]Vanessa Clairoux-Trepanier, Isa-May Beauchamp, Estelle Ruellan, et al. The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums, 2024[M/OL]. (2024). https://arxiv.org/abs/2408.03354

内容编辑：创新研究院吴复迪
责任编辑：创新研究院舒展

原文始发于微信公众号（绿盟科技研究通讯）：论文解读：《将LLM用于网络犯罪论坛的威胁情报》

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

《将LLM用于网络犯罪论坛的威胁情报》

揭秘BAS安全数字罗盘：四大维度量化指标让你的防护看得见，说得清！

一键收集服务器日志！用Ansible剧本解放你的双手！

干货|恶意软件容器靶机

告别大海捞针：Splunk，现代应急响应的作战指挥平台

本地多语言 AI 字幕组：Whisper 实战教程

记一次Node.js站点渗透

基于因果分析的鲁棒性攻击流量识别

勒索软件团伙在 BYOVD 攻击中利用 Paragon Partition Manager 漏洞

赚取50000美元的5个顶级 XSS PoC

BurpAPI越权漏洞检测工具|漏洞探测

发表评论

在线咨询

微信