SoReL-20M: 2000万恶意软件样本数据集开源

2020年12月29日16:07:46评论85 views字数 1235阅读4分7秒阅读模式

12月14日，网络安全公司Sophos和 ReversingLabs联发布史上最大规模恶意软件研究数据集——SoReL-20M，旨在构建有效的防御能力，增强安全检测和响应的能力。

SoReL-20M是一个含有2000万Windows PE文件元数据、标签和特征的数据集，其中包含1000万去除恶意软件功能的恶意软件样本，目标是为设计检测恶意软件的机器学习方法提供足够的数据集。同时开源的还有在这些数据上预训练的基于PyTorch 和 LightGBM的机器学习模型作为基准。

自然语言处理和图像处理领域都有很多公开的数据集，比如MNIST、ImageNet、CIFAR-10、IMDB Reviews、Sentiment140和WordNet。与自然语言处理和图像处理领域不同的是，标准化的、标记的数据集对网络安全来说是非常具有挑战性的，因为有很多个人识别的信息、敏感的网络基础设施数据、个人知识产权数据等，更何况要把恶意软件提供给未知的第三方。

2018年发布的EMBER（Endgame Malware BEnchmark for Research）是一个开源的恶意软件分类器，其中只有110万恶意样本，其功能只是单一的标记数据集（恶意软件或非恶意软件），也就是说会限制试验的范围。

SoReL-20M的目标是通过2000万的PE 恶意软件样本来解决这一问题，其中含有1000万去除恶意软件功能的恶意软件样本（无法执行），以及1000万非恶意软件中提取的特征和元数据。

SoReL-20M: 2000万恶意软件样本数据集开源

此外，该方法使用基于机器学习的标记模型来生成指定恶意软件样本重要特征的人类可理解的语义描述。

SoReL-20M 的发布与近期业界动向是一致的。20年10月，微软发布了对抗机器学习威胁矩阵来帮助安全分析人员检测、响应和修复针对机器学习系统的对抗攻击。

ReversingLabs研究人员称，安全领域威胁情报共享的思想并不新鲜，但是是非常关键的。人工智能和机器学习已经成为检测新的恶意软件和定向攻击软件的关键，而且应用也越来越广泛。

Github 页面：https://github.com/sophos-ai/SOREL-20M

关于SOREL-20M的论文SOREL-20M：A Large Scale Benchmark Dataset for Malicious PE Detection 下载地址：https://arxiv.org/abs/2012.07634

更多参见：https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/

参考及来源：https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/

SoReL-20M: 2000万恶意软件样本数据集开源

本文始发于微信公众号（嘶吼专业版）：SoReL-20M: 2000万恶意软件样本数据集开源

左青龙
微信扫一扫

右白虎
微信扫一扫

SoReL-20M: 2000万恶意软件样本数据集开源

Forrester：2024年五大网络安全新威胁

新的R编程漏洞暴露项目面临供应链攻击

SpaceX 遭攻击，泄露近150GB数据以及多份图纸

为什么使用微软AI会加剧现有的数据质量和隐私问题

5000 多台 CrushFTP 服务器被零日漏洞攻击

利用山寨谷歌 Chrome 传播，安全公司披露勒索木马 Brokewell

大众汽车遭黑客入侵长达 5 年，燃油引擎 / 电池等机密文件泄露

原创 | 近年全球石油天然气行业网络安全事件汇总分析

近年全球石油天然气行业网络安全事件汇总分析

开源的Judge0 中存在多个沙箱逃逸漏洞，可导致系统遭完全接管

发表评论