这是一种针对暗网数据进行预训练的语言模型,可帮助网络安全专业人员从互联网的虚拟软肋中提取网络威胁情报 (CTI)。
DartBERT数据采集与数据过滤操作图
DarkBERT:暗网的语言模型
很长一段时间以来,研究人员和网络安全专家一直在利用自然语言处理 (NLP)来更好地理解和应对威胁形势。
NLP 工具已经成为 CTI 研究不可或缺的一部分。
暗网被称为参与非法活动的个人的“游乐场”,在大规模提取和分析 CTI 方面提出了明显的挑战。
来自韩国科学技术院 (KAIST) 和数据智能公司 S2W 的一组研究人员决定测试定制训练的语言模型是否有用,因此他们想出了 DarkBERT,它是在暗网数据上预训练的(即,该领域中使用的特定语言)。
潜在用例场景
DarkBERT 对英文文本进行了广泛的预训练,在暗网上发现了大约 610 万页。(研究人员过滤掉了无意义和不相关的页面。)
然后将其功效与两种流行的 NLP 模型进行了比较——BERT,一种由谷歌于 2018 年推出的掩码语言模型,以及 RoBERTa,一种由 Facebook 于 2019 年开发的人工智能方法。
研究人员测试了 DarkBERT 在三个与网络安全相关的用例中的使用情况:
1. 勒索软件泄露站点检测
勒索软件团伙利用暗网建立泄漏站点,在那里他们发布拒绝支付赎金的组织的机密数据。
这三种语言模型的任务是对此类网站进行识别和分类,DarkBERT 的表现优于其他网站。
证明了 [its advantages] 在理解暗网上地下黑客论坛的语言方面的优势。
具有预处理输入的 DarkBERT 比具有原始输入的 DarkBERT 表现更好,这突出了文本预处理步骤在减少多余信息方面的重要性。
2. 值得注意的线程检测
暗网论坛通常用于交换非法信息,安全研究人员经常监控它们以寻找值得注意的话题,因此它们可以降低相关风险。
但是有很多暗网论坛和大量的论坛帖子,能够自动发现和评估线程的关注度可以大大减少他们的工作量。
同样,主要问题是暗网上使用的特定语言。
由于任务本身的难度,与之前的评估和任务相比,DarkBERT 在现实世界中值得注意的线程检测的整体性能并不好。
尽管如此,与此处显示的其他语言模型相比,DarkBERT 的性能非常重要,并显示了其在暗网域任务中的潜力。
通过添加更多训练样本并结合作者信息等附加功能,我们相信可以进一步提高检测性能。
3. 威胁关键词推断
研究人员使用填充掩码功能来识别与(在本例中)暗网威胁和毒品销售相关的关键字。
填充掩码是 BERT 家族语言模型的主要功能之一,它可以找到最适合句子掩码位置的单词(掩码语言建模)。
它对于捕获哪些关键字用于指示野外威胁很有用。
DarkBERT 在这个特定测试中的结果优于其他测试变体。
研究人员发现,DarkBERT 在所有任务中的表现都优于其他预训练语言模型,并得出结论认为它在暗网领域和网络威胁行业的未来研究中显示出适用性”。
尽管还有更多工作要做,需要调整以使其更广泛地适用。
在未来,我们还计划使用更新的架构来提高暗网域特定预训练语言模型的性能,并抓取更多数据以允许构建多语言语言模型。
https://arxiv.org/pdf/2305.08596.pdf
原文始发于微信公众号(网络研究院):DarkBERT 自动化暗网挖掘以获取网络威胁情报
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论