【攻击意图评估：总集篇】手把手教你搭建告警筛选系统

2021年9月29日23:54:25评论122 views字数 2856阅读9分31秒阅读模式

一、前情提要

在前三篇文章（【攻击意图评估：序】误报太多？谈海量告警筛选、【攻击意图评估：一】业界难题？谈自动化筛选关键告警的可行性、【攻击意图评估：二】AI不好用？融入专家知识的告警筛选实战）中，我们详细探讨了目前企业安全运营工作中遇到的海量告警筛选（告警疲劳）问题，并分析了其症结所在，认为“攻击意图”是决定告警实际危害程度的关键因素，并提出了一套完整的特征提取、标注、建模、验证方法。

本文会详细整理并介绍其中的实现细节，适合想要自己动手尝试的读者参考。

二、取得原始数据

一般来说，我们需要从各种检测/防护系统上收集原始告警数据，在此过程中主要注意以下几点：

1、现有实验表明，监督学习方法比无监督、半监督方法在实战中的表现更好，但模型迁移能力较差。同时由于攻击样本稀缺，模型迁移能力更加受限，因此务必在真实环境中采集数据。

2、此外，告警载荷（或请求&响应报文等）与攻击意图关联最大，是最为必要的。但一些其它字段（如源地址、目的地址等）对分析过程也有帮助，无需刻意丢弃处理。

3、告警筛选模型的训练过程中，最大的困难就是正负样本不均衡。由于攻击手法和业务本身的多样性，常规正则化方法效果有限。最好在有较多攻击发生的时间段（比如红蓝对抗时期）采集数据，保障攻击样本的充足。

（部分原始告警数据）

三、取得标注样本

关于标注样本的获取方法，在前一篇文章中已经进行了较为详细的讨论（【攻击意图评估：二】AI不好用？融入专家知识的告警筛选实战）。本文在此补充一些细节要点：

1、将已知扫描器、已知蠕虫等活动的相关告警作为标注样本时，务必注意去重和下采样，训练中此类标注占比不宜超过20%。以现有实验情况看来，自动化攻击本身可能具有一定特点，如果此类标注样本占比过多，模型可以泛化并识别出其它类似的自动化攻击，却不易识别出同种漏洞的手动攻击和深入利用。这显然不是我们想要的结果。

2、在人工标注前的采样过程中，异常检测采样的效率要高于聚类采样。也就是说，对特殊样本进行标注的训练效果好于对典型样本的标注。从这个角度看来，正常业务与异常业务之间的界限可能往往是比较明确的，而异常业务内部的区分（是由于攻击导致的，还是非恶意的业务波动）则比较复杂。

（告警特征向量的降维分布，色彩代表异常检测结果，越红越异常）

四、编写特征提取器

特征提取的效果是监督学习模型性能的决定性因素之一，也是模型构建过程中人力资源投入最大的环节。

针对告警数据而言，特征提取过程需要确保：

1、对于相似行为产生的告警，它们的特征值也是相似的，特征提取器需要排除告警信息中的无关干扰；

2、对于不同行为产生的告警，它们的特征值也是不同的，特征提取器需要找出告警信息中的关键内容；

这也是为什么，我们要使用专家编写正则式的方法来提取特征。告警载荷的特征提取器面对的是一个个内容分布非常广泛的二进制序列，对于缺少专家知识的无监督方法（例如，以字节为单位执行doc2vec等序列嵌入方法）而言，想要从中区分出有价值和无价值的信息片段，是非常困难的。

特征提取性能的另一个关键是，对于告警载荷中各种编码块/协议字段的识别和解析能力。和正则表达式的编写过程一样，都需要安全攻防领域的专家进行大量优化调整后，才能达到较为理想的水平。

此处给出一组经过验证、与攻击意图关联较强的特征列表，供读者参考：

特征种类	特征模式
网络类	源IP、非源非目的外网IP、非源非目的内网IP、网络操作命令和函数注：现有实验表明，目的IP在告警载荷中的出现次数，似乎用处不大
文件类	低危害的系统文件路径、高危害的系统文件路径、其他可执行文件路径、其他文件路径、列出文件操作、读文件操作、写文件操作、执行文件操作、其它文件操作、PE/ELF/脚本代码内容
数据库类	连接字符串、数据库连接操作、数据库危险操作、低危害的数据库系统表和字段、高危害的数据库系统表和字段注：SQL关键字本身似乎用处不大
操作系统类	读取操作系统敏感信息操作、修改操作系统敏感信息操作、危险的操作系统命令
脚本类	常量表达式、脚本动态执行函数、脚本输入输出函数
HTTP字段	脚本类URL后缀、静态文件URL后缀、201/202响应码、40X响应码、50X响应码注：请求方法和其它响应码似乎用处不大
Windows注册表	注册表路径、注册表操作命令和函数

五、模型构建

鉴于真实环境中攻击样本的稀缺，我们选用支持向量机回归（SVR）分别对所标注意图的试探性和利用性标注进行训练。SVR在小样本学习任务中表现出色。

SVR模型中主要需要调整的参数就是高斯核参数Gamma。由于SVR训练速度很快，一般来说直接进行交叉验证和网格搜索即可完成参数优化。

关于具体代码的编写，网上相关资料很多，本文在此不赘述。

六、上线运行

真实环境中，攻击行为也好，业务活动也好，都并非一成不变。我们需要建立一套完整的反馈机制，使得值守工作中所研判的告警还能源源不断地补充到标注样本集中，从而适应不断变化的信息系统环境。

为此，我们最终设计并实现了一个威胁推荐系统，并将其融入到企业AISecOps流程中。目前，该威胁推荐系统已经在多个红蓝对抗现场中投入使用。

下为被推荐系统判断为“关键告警”的部分案例，可见包含很多手工/高针对性攻击，是重点防守监控对象：

而被推荐系统判断为“低价值告警”的案例中，可见以低水平漏洞扫描和蠕虫活动为主，实际危害程度普遍不高（尽管其中不乏IDS高风险规则告警）：

其中，攻击意图评估模型作为推荐系统中的一个子模块，为最终的告警推荐提供依据。但威胁推荐系统中涉及其它内容较多，本文不详细探讨，如有兴趣还请继续关注公众号“绿盟科技研究通讯”。

七、后记

本系列文章【攻击意图评估】至此完结。

如果您发现文中描述有不当之处，还请留言指出。在此致以真诚的感谢~

关于天枢实验室

天枢实验室聚焦安全数据、AI攻防等方面研究，以期在“数据智能”领域获得突破。

内容编辑：天枢实验室吴复迪责任编辑：王星凯

本公众号原创文章仅代表作者观点，不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权，严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用，转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新中心负责运营，绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新中心作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一，与清华大学进行博士后联合培养，科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向，从实践出发，结合公司资源和先进技术，实现概念级的原型系统，进而交付产品线孵化产品并创造巨大的经济价值。

【攻击意图评估：总集篇】手把手教你搭建告警筛选系统

长按上方二维码，即可关注我

本文始发于微信公众号（绿盟科技研究通讯）：【攻击意图评估：总集篇】手把手教你搭建告警筛选系统

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【攻击意图评估：总集篇】手把手教你搭建告警筛选系统

揭秘BAS安全数字罗盘：四大维度量化指标让你的防护看得见，说得清！

一键收集服务器日志！用Ansible剧本解放你的双手！

干货|恶意软件容器靶机

告别大海捞针：Splunk，现代应急响应的作战指挥平台

本地多语言 AI 字幕组：Whisper 实战教程

记一次Node.js站点渗透

基于因果分析的鲁棒性攻击流量识别

勒索软件团伙在 BYOVD 攻击中利用 Paragon Partition Manager 漏洞

赚取50000美元的5个顶级 XSS PoC

BurpAPI越权漏洞检测工具|漏洞探测

发表评论

在线咨询

微信