基于 Spark 大数据平台的云上用户日志行为审计系统

admin 2023年5月24日01:04:12评论21 views字数 5499阅读18分19秒阅读模式

摘 要:网络安全已经逐渐成为一个全球性的问题,受到各行各业的高度重视。除了采用一些主动措施来提高系统的安全性,还可以通过审计来提高网络的安全性。针对这一现状,设计了基于 Spark 大数据平台的云上用户日志行为审计系统,通过追踪用户的访问内容和访问方式进而查找系统所存的安全隐患,从而规避相应风险的过程和操作集合。主要描述了流程挖掘、数据泄露、数据追溯等系统设计的关键技术和关键模块实现。解决了未标签化的海量用户日志流处理的核心问题,对基于云的系统的日志审计技术发展具有重要意义。

内容目录:
1 云审计技术研究现状及主要问题
1.1 云审计技术研究现状
1.2 研究需求
1.3 主要工作
2 云审计系统设计
2.1 云审计系统架构
2.2 核心功能模块
3 云审计系统实现
3.1 系统拓扑结构
3.2 系统部署
4 结 语
随着大数据及云计算的快速发展,越来越多的企业将业务迁移上云,极大地提高了效率,同时对云的审计也成为新的安全需求。与之对应的则是于云平台版本的不断迭代,不同厂家云平台日志格式的差异,种种因素都增加了日志审计的复杂性。现有的云审计系统多数是基于某一种云产品的标签化日志,但实际应用中事件日志多为海量的、未标签化的日志,因此从未标签化的海量用户日志中,发现和审计系统中的实际行为具有重要意义。本文将基于多云上用户行为产生的大量事件日志,通过流程挖掘模型,设计一种基于非标签化的云上用户日志的审计系统,同时在审计过程中可以根据行为追溯到产生该行为的原始日志,形成一条完整的证据链。

1

云审计技术研究现状及主要问题

1.1 云审计技术研究现状
随着云的广泛应用,越来越多的业务迁移上云,极大地提升了效率、降低了成本。但是在使用过程中,云上的网络安全性也不容忽视。除了有一些常用的主动措施来提高云的安全性,还需要结合被动措施来保证云的安全性,云审计是一种常用的提高网络安全性的有效手段。云上常见的安全风险主要包括但不限于操作者身份不明确、操作过程不透明、操作内容不可知、操作行为不可控、操作事故无法定位等。除此之外,用户的过失和恶意操作也可能会危害云上业务及数据的安全。
随着云计算技术的高速发展,系统透明度越来越低,用户和监管人员难以感知云上发生的违规操作,无法及时做出应对,降低了云操作系统的整体安全性。
同时,云上日志具有海量性、多样性,日志中噪声日志占比高,有效信息分布随机等特点,无法直接对云上的日志进行分析。这些特点也导致普通的过滤算法无法充分过滤掉噪声日志。云版本的不断迭代,也是日志多样性的原因之一,更增加了日志处理的复杂性。此外,几款主流云产品的日志互不相同,难以用同一套日志模型从不同云中提取有效信息。
1.2 研究需求
在云日志中,包含了系统内部的安全事件、用户访问记录、用户操作行为、系统运行、系统状态等各类信息。通过对云日志的分析处理,能够有效地获取云的运行状态,跟踪记录用户操作,极大地增强云的透明度和安全性。云日志的审计分析结果,能够指导对云平台资源的合理化配置、优化系统程序、增加防御机制、修复系统问题,提升云在运行过程中的稳定性、可靠性、安全性、合规性。
1.3 主要工作
云用户行为审计系统通过分析云的运行日志,提取用户操作行为信息,从而记录用户操作行为,了解云的运行状态,及时发现云上发生的风险和违规操作,进而提高云的安全性。
研究设计独特的云日志处理算法,能够高效、准确地从海量、格式不确定的原始日志中过滤掉噪声日志、提取有效信息,将其转化为结构化的、可供大数据分析的用户操作行为数据。基于操作行为数据,运用数据分析算法,可以对用户的操作行为进行行为审计、合规性分析等;通过多维度展示行为数据,对于数据泄露这一类复杂流程进行设计分析;同时还提供了数据追溯、数据完整性校验、审计策略、行为还原等功能。

2

云审计系统设计

2.1 云审计系统架构
云上用户行为审计系统由云平台采集模块、数据分析模块、大数据平台模块、门户展示模块构成。云审计的系统架构如图 1 所示。
基于 Spark 大数据平台的云上用户日志行为审计系统
图 1 云审计的系统架构
云平台采集模块通过代理或应用程序接口(Application Program Interface,API), 从 云 平台获取原始日志及云平台上的租户、用户、资产、业务信息等元数据,将原始日志写入大数据平台模块的分布式文件系统(Hadoop Distributed File System,HDFS)中,作为整个数据分析模块的输入。
大数据平台模块包括数据的存储组件和大数 据 处 理 的 引 擎, 存 储 组 件 为 HDFS、SQL、Hbase,主要用来存储日志数据、日志模型、资产用户元数据;大数据处理引擎为 Spark、SparkStreaming,主要用来批量处理大量数据。
数据分析模块包括日志预处理、关联分析、日志结构化几个子模块。日志预处理模块调用大数据平台的 Spark 服务,实现过滤、模型提取、流程挖掘,得到日志模型。日志结构化模块调用 Spark Streaming 从 HDFS 中读取原始日志,根据日志模型,提取原始日志中的有效信息,并将原始日志转换为结构化日志信息;关联分析模块通过日志中提取的 ID 关联云平台的元数据,找到对应的用户、资产、权限信息,并根据审计策略判断该操作行为是否合规;同时关联分析模块还实现了运用图计算技术来识别云平台数据泄露路径的一些模型算法。
门户展示模块则负责审计分析结果的多维度展示,让用户能够直观地了解当前系统用户操作行为分类统计、合规性状况、敏感资产等信息,并支持查阅系统记录的用户操作行为。同时,为了审计的整个证据链的完整性,也支持从行为溯源到原始日志的操作。
2.2 核心功能模块
2.2.1 日志预处理模块
日志预处理主要实现了日志过滤、流程挖掘、模型提取,如图 2 所示。
基于 Spark 大数据平台的云上用户日志行为审计系统
图 2 预处理流程
日志过滤 主要运用聚类算法从大量无用的云日志中过滤掉噪声日志,保留有效日志,从而提高流程挖掘的准确性和高效性。
流程挖掘  主要实现了从过滤后的有效原始日志中提取出属于同一个“事件”的操作日志 ,将其放入某个事件对应的日志集合。
模型提取主要实现了从原始日志中挖掘出某个操作对应的日志模型,日志模型包括:操作所触发的日志集合,集合中每条日志的正则表达式,集合中每条日志的关键参数及其含义。
如图 3 所示,“事件”是指用户的一个操作行为,例如创建虚拟机、迁移虚拟机等操作都是一个事件,执行一个“事件”会触发多条日志,从采集到的日志中挖掘出事件的日志序列,获取其正则表达式,提取出描述“事件”的时间、触发者、操作对象等关键信息的参数,生成一个“事件”对应的日志模型。
基于 Spark 大数据平台的云上用户日志行为审计系统
图 3 日志模型
通过三步处理,最终能够提取出某个操作“事件”所对应的日志模型,此时再由人工标注程序提取出事件所对应的具体操作是什么、提取的参数分别是什么含义,从而得到完整的日志模型。
2.2.2 日志结构化模块
日志结构化模块利用日志预处理模块中得到的日志模型,从原始日志中提取出用户操作行为和关键参数,并将其转化为结构化的数据,以便于后续的关联分析、审计等。结构化模块的流程如图 4 所示。
基于 Spark 大数据平台的云上用户日志行为审计系统
图 4 结构化模块流程
SparkStreaming 读取 HDFS 中的原始日志,经过日志过滤模块,然后对于每行有效日志根据事件的日志模型库去匹配其正则表达式,如果匹配成功,则可以知道当前有效日志属于哪一个事件,待某事件的日志模型对应的日志都收集齐了,则从收集到的日志中提取出对应的有效信息,生成一条新的结构化的数据,并写入数据库中。结构化后的数据都包含操作者、操作内容、对象目标、时间、结果、失败原因、原始日志等要素。
日志结构化输出的数据库表中的每一行表示了一个单独的“事件”,每一列表示了这个“事件”的要素。实际的事件日志只能包含有限的信息,因此提取出来的日志要素往往比需要的要素少,某个“事件”结构化后的数据记录的要素的饱满程度,是和该事件触发的日志中包含的信息量相关的。
2.2.3 关联分析模块
关联分析模块首先根据日志结构化模块结果库中的 ID 信息,关联云数据库中的元数据,例如通过用户 ID 关联用户的名称、所属租户等,后续用于门户展示模块。同时根据关联后的信息,生成审计策略,依据审计策略触发告警。
(1)告警分析。告警分析是根据审计策略检测出存在风险的行为的方法,存在风险的行为可以是某个独立的操作,也可以是某一系列操作行为的组合。
审计系统主要是根据审计策略对结构化的数据所呈现的用户行为进行分析判断,从而确定用户的行为是否存在风险、是否已经导致问题或者可能造成危害。
审计策略的生成方式主要有如下几种:
①根据安全规范和需求,通过对“事件”的关键要素如操作内容、操作频率、操作对象、访问的黑白名单、访问权限、操作时间、操作地点、操作 IP、操作是否成功等进行硬性的规定来生成策略,例如:禁止特定时间段内的某些敏感操作,直接禁止某些敏感操作,或者禁止某些特定的用户执行这些敏感操作。
②根据用户的行为习惯,取其以往的统计平均值,自动学习生成相应的策略,包括用户经常访问的对象、发起访问的地点、访问频率、经常访问的事件、访问持续时间、访问过程中的网络流量等维度。一旦某次操作或者历史经验值不符合或者方差大于阈值,就可以判定为异常行为。
③通过挖掘分析曾经安全问题发生前后的历史行为数据,采集问题发生前后哪些行为的统计值发生了异常变化,可以获得此类问题发生前后云上用户的操作频率、操作行为组合、操作发生时间、主要操作等方面的征兆信息,从而生成新的审计策略,达到同类问题发生时提前告警的目的。
④系统支持复杂流程审计算法,能够从一系列连续的操作事件中,提取出用户的操作流程,并对其进行合规性审计,确保用户操作符合规定流程。例如在迁移虚拟机之前必须进行备份操作,如果没有备份,则视为违规。
通过这些审计策略,能够有效地识别用户的违规和风险操作,生成告警,极大地提高云系统的安全性。告警信息中包含了审计策略的描述和触发本次告警的操作行为信息,以及分析所依赖的原始日志,能够从告警的行为追溯到关联的原始日志。
(2)数据泄露检测。运用图计算技术识别云平台数据泄露的相关路径,还原云平台上因操作行为导致的数据泄露场景。先设置一个可能触发泄露的行为集合,再基于关系度构建子图的方法,筛选出资源和最远行为,获取影响路径元素集合,最终采用起点、必经点、终点的方式找出数据泄露的行为路径。该方法能够发现隐藏在正常行为序列中的数据泄露行为序列,最大限度地还原数据泄露场景的行为。
2.2.4 门户展示模块
门户展示模块主要展示审计系统分析出的用户操作行为数据和生成的告警数据,并进行多维度的展示。从多种维度直观地展示系统的整体状态和风险情况。
除了对某个租户或者云系统范围内的一段时间内的操作行为频率、违规情况等进行展示,还可以对某个特定的虚拟资源进行全生命周期审计,进而进行多维度的展示。此外,还可以对某个独立的用户全生命周期过程中的所有行为进行多维度的分析展示。
2.2.5 数据采集模块
数据采集模块主要分为 API 采集和文本日志采集两种。其中,API 采集主要是通过对接云平台的元数据服务来获得相关数据,文本日志则是通过与云平台的日志服务器对接或者通过在云平台内部部署日志采集代理的方式实现。将采集到的数据写入 HDFS 或者消息中间件中,由数据分析模块中的日志预处理模块进行标准化处理。

3

云审计系统实现

3.1 系统拓扑结构
系统拓扑结构如图 5 所示。用户需要通过堡垒机登录到前置机,然后在前置机上登录云审计系统,或者查看数据库。
基于 Spark 大数据平台的云上用户日志行为审计系统
图 5 云审计系统拓扑结构
3.2 系统部署
系统部署方式十分灵活,如图 6 所示,网络中的各种运行设备只需简单配置,将日志发送到数据层所在主机上(可通过日志接收代理转发日志数据),其余设备网络可通即可,对网络的适应性极强,既能够支持集中式的部署方式,也支持跨区域、分级分层、物理 / 逻辑隔离的大规模网络的部署方式,是可水平扩展的海量事件采集、存储、分析平台。
基于 Spark 大数据平台的云上用户日志行为审计系统
图 6 云审计系统的可扩展性部署

4

结 语

本文主要从基于云上日志来审计云上用户行为的需求出发,描述了基于 Spark 大数据平台的信息提取方法,包括:日志过滤,过滤掉无用日志,存入 HDFS 中;利用流程挖掘,从一系列交织在一起的行为日志中分离出多个行为流程的日志集合,再结合日志结构化模块将常规变量替换为通配符,同时对日志条目进行规整处理,将处理后的结果存入 HDFS 中;最终实现将非格式化的日志转变成格式化的行为数据,然后基于这些数据进行审计分析。如果是标准的日志,可以利用其补充完善现有的审计数据分析模块中的算法,使其可以服务于其他云系统的审计。因此,本文提出的审计系统和方法对于利用海量的未标签化的行为日志来审计用户的行为具有重要的参考意义。

引用格式:刘恕涛 , 文占婷 . 基于 Spark 大数据平台的云上用户日志行为审计系统 [J]. 信息安全与通信保密 ,2022(12):11-18.

作者简介 >>>

刘恕涛,男,学士,工程师,主要研究方向为云安全、安全服务运营;

文占婷,女,硕士,工程师,主要研究方向为云与大数据安全。

选自《信息安全与通信保密》2022年第12期(为便于排版,已省去原文参考文献)

基于 Spark 大数据平台的云上用户日志行为审计系统


商务合作 | 开白转载 | 媒体交流 | 理事服务 

请联系:15710013727(微信同号)

《信息安全与通信保密》杂志投稿

联系电话:13391516229(微信同号)

邮箱:[email protected]   

《通信技术》杂志投稿

联系电话:15198220331(微信同号)

邮箱:[email protected]

原文始发于微信公众号(信息安全与通信保密杂志社):基于 Spark 大数据平台的云上用户日志行为审计系统

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年5月24日01:04:12
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   基于 Spark 大数据平台的云上用户日志行为审计系统https://cn-sec.com/archives/1750735.html

发表评论

匿名网友 填写信息