由于恶意软件变种的不断演变,分析 Windows 恶意软件检测 API 序列的深度学习模型面临挑战。
一组研究人员最近提出了 MME 框架,该框架通过利用 API 知识图和系统资源编码来增强现有的检测器。
利用对比学习,MME 在进化的恶意软件样本中捕获类似的恶意语义。
MME 框架
实验结果表明,与常规文本 CNN 相比,五年数据集内的假阳性率降低了 13.10%,F1 分数提高了 8.47%。
此外,MME 显著降低了模型维护成本,仅需花费每月预算的 1% 即可实现假阳性率降低 11.16% 和 F1-Score 提高 6.44%。
MME 框架通过解决恶意软件变种不断演变的挑战, 增强了基于 API 序列的 Windows恶意软件检测模型。MME 引入了两项关键创新,它们是:
-
一种复杂的 API 嵌入方法,结合 API 知识图谱进行语义表示,并结合特征哈希嵌入进行系统资源编码。
-
一种对比学习策略,可以提高模型在不断演变的样本中识别类似恶意行为的能力。
当将 MME 应用于 LSTM 和 Text-CNN 模型并采用 2017 年至 2021 年的 76K Windows PE 样本数据集时,MME 显著降低了假阴性率(LSTM 从 22.4% 降至 10.1%,Text-CNN 从 22.7% 降至 9.6%),并将所需的人工标记工作量减少了 24.19%-94.42%。
该方法在不改变原有模型结构的情况下,表现出了增强的抗恶意软件进化的稳定性,有效减缓了模型老化,提高了长期检测的准确性。
MME 专注于增强 API 序列嵌入和编码器模块(来源 – Arxiv)
MME 框架通过针对恶意软件家族的不断发展的特性来增强基于 API 序列的 Windows 恶意软件检测模型。
MME 引入了三个主要元素:
-
第一个是具有语义接近性的API知识图谱,可以弥补同等API替换效应。
-
另一个是基于特征散列的分层系统资源编码,它增强了模型对类似资源访问模式的关注。
-
同时,第三个方法涉及一种对比学习策略,该策略强化对恶意软件生成过程中持久 API 片段的关注。
将 MME 实现到 LSTM 和 Text-CNN 模型中可以显著延长它们的使用寿命并降低假阴性率。
在维护场景中,所需的人工注释工作量减少了 94.42%,同时不影响性能。
然而,MME 增强模型每月只需要 1% 的标记数据即可实现 90% 以上的 F1 分数和低于 10% 的假阴性率,而常规模型至少需要 5%。
这反映了分析师参与度的减少(五倍)以及检测精度的提高,这使得 MME 成为抵消恶意软件演变影响和维持恶意软件检测器可持续长期运行的有效工具。
论文详情:
https://arxiv.org/pdf/2408.01661
原文始发于微信公众号(独眼情报):研究人员提出 MME 框架来增强基于 API 序列的恶意软件检测
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论