GapFinder: 从非结构化文本中发现安全信息的不一致性

admin 2021年4月27日04:26:56评论72 views字数 1785阅读5分57秒阅读模式

GapFinder: 从非结构化文本中发现安全信息的不一致性

原文作者:Hyeonseong Jo, Jinwoo Kim, Phillip Porras, Vinod Yegneswaran, Seungwon Shin
原文标题:GapFinder: Finding Inconsistency of Security Information from Unstructured Text
原文链接:http://nss.kaist.ac.kr/wp-content/uploads/2020/08/GapFinder.pdf
笔记作者:cherry@SecQuan

介绍

论文提出了一种检测来自多个公开来源的安全信息中的不一致之处的系统方法GapFinder,可以从非结构化文本中提取结构化数据,对提取的数据进行数据优化并规范化恶意软件别名之间的语义联系。论文的主要贡献如下:

  • 介绍的GapFinder可以从有关恶意软件四个主要特征的非结构化文本中获取结构化关系。
  • GapFinder通过推断具有相似或等同含义的不同单词的通用术语,来解决任何形式的实体(结构化或非结构化文本)之间的不一致。
  • 根据470K安全报告评估了GapFinder,发现恶意软件的四个主要特征存在许多不一致之处。

定义

定义以下五种类型的实体和实体之间关系,并以此构建恶意软件图。GapFinder: 从非结构化文本中发现安全信息的不一致性

系统设计

GapFinder的整体架构如下图所示,由五个主要组件组成:(1)数据提取器(2)预处理器(3)图构造器(4)数据整合器(5)信息分析器。

GapFinder: 从非结构化文本中发现安全信息的不一致性

整体工作流程:数据提取器抓取安全相关数据并输入预处理器进行文本清洗和执行安全主体分类算法,图构造器抽取实体得出结构化关系,然后对数据进行标准化和别名处理,最后通过信息分析器在连接的恶意软件图中找到相同类型的节点之间的不一致性。

图构造器
设计了由实体标记器,关系构建器和关系扩展器组成的图构造器,以考虑安全性特定问题从非结构化文本中获取结构化数据。

  • 实体标记器
    • 基于CRF的NER模型为单词标记以下标签:(1)MW(恶意软件),(2)CV(CVE标识符),(3)IM(感染方法), (4)TP(目标平台),(5)DA(日期),(6)O(其他)。
    • 针对WM类别误分类为O类别的情况设计共指消解算法:首先通过NER模型寻找恶意软件的专有名词标为MW,然后在标MW标签的前后的三个词中发现指示恶意软件类型的名词,最后如果恶意软件类型出现在包含恶意软件名称的句子之后,则将其替换为恶意软件名称,并将标签也从O修改为MW。
  • 关系构建器
    • 针对现有的RE模型并未验证实体的标签的问题,使用K均值聚类带有MW注释的实体,将用MW注释的实体划分为两个集群(恶意软件和非恶意软件),从而去除恶意软件无关实体的错误标签。
  • 关系扩展器
    • 针对AV报告的特有格式,在不同句子的实体之间建立关系。

数据整合

  • 数据格式化:为含义相似节点创建通用表达
    • 感染方法IM:首先将感染方法分为六类,然后使用最接近Word2Vec模型中每个类别的五个单词来构建类别表。如果对应于类别中的单词中的一个,则将其替换为该单词所属的类别。
    • 日期DA:统一格式化为yyyy-mm格式。
  • 别名
    • 从Web中提取具有别名关系的恶意软件别名对:利用图构造器提取Wikipedia页面非结构化数据中的MW类别实体,然后与标题相对应生成别名对。
    • 在有别名关系的恶意软件实体之间生成边。

信息分析器
检测每个连接的恶意软件图是否存在数据不一致性。

  • 集合不一致性:是指需要两个或多个源来构建特定边基本集的情况。首先将属于特定边类型的节点的并集定义为该类型的基本集,对于每种边类型,删除占基本集最大比例的节点,并检查基本集中是否还有剩余的节点,如果基本集不为空,则意味着至少需要两个源来构建基本集。
  • 范围不一致性:是指存在一个或多个日期节点与基准日期之间至少相差一个月的情况。通过将度数最高的日期节点定义为基准日期进行判别。

实验与评估

随机选取了1000个句子手工注释数据集。GapFinder: 从非结构化文本中发现安全信息的不一致性集合不一致性:采用Jaccard相似性热图衡量十个恶意软件样本的基本集与十个来源中提到的这些恶意软件样本的感染方法之间的相似性。GapFinder识别了九个恶意软件样本中的集合不一致之处。GapFinder: 从非结构化文本中发现安全信息的不一致性

范围不一致性:发现范围不一致的10个恶意软件图的日期节点的分布。GapFinder: 从非结构化文本中发现安全信息的不一致性


安全学术圈招募队友-ing, 有兴趣加入学术圈的请联系secdr#qq.com

GapFinder: 从非结构化文本中发现安全信息的不一致性


本文始发于微信公众号(安全学术圈):GapFinder: 从非结构化文本中发现安全信息的不一致性

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2021年4月27日04:26:56
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   GapFinder: 从非结构化文本中发现安全信息的不一致性http://cn-sec.com/archives/254219.html

发表评论

匿名网友 填写信息