终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村

admin 2023年12月19日11:19:56评论22 views字数 6092阅读20分18秒阅读模式

终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村

终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村


近年来随着《网络安全法》、《数据安全法》和《个人信息保护法》等法律相继颁布实施,国家在法律层面对敏感数据的有效保护和合理使用提出了具体要求,明确了企业的数据安全责任和义务。人民银行也发布《个人金融信息保护技术规范》,将个人金融信息按敏感程度、泄露后造成的危害程度,从高到低分为C3、C2、C1三个类别;同时,规定了个人金融信息在收集、传输、存储、使用、删除、销毁等生命周期各环节的安全防护要求,从安全技术和安全管理两个方面,对个人金融信息保护提出了规范性要求。

金融机构是数据密集行业,客户在金融机构开户都至少要提交自己的姓名、身份证号、手机号,有的还可能要填写职业、家庭住址等,这些都属于较为敏感的个人隐私数据。金融机构基于反洗钱、反欺诈等不同需求,也促使大数据技术在金融业务中被深度应用。金融机构必须确保各类敏感数据在使用、流转环节被妥善保护,否则将面临声誉损失和监管处罚,甚至还可能受到法律制裁。

但现实情况不容乐观:据权威机构数据显示,由于内部重要机密数据通过网络泄露而造成经济损失的单位中,97%的重要资料是由内部员工泄露,被黑客窃取的案例仅占1%。仅2021年上半年就有多家金融机构因内部员工违规泄露客户数据而受到监管处罚,相关人员被禁止从事金融机构业工作1年或5年。

1.终端数据防泄漏(DLP)技术的存在问题



个人金融信息主要是指金融机构保留的客户身份信息和隐私数据,包括客户姓名、身份证号、手机号、职业、家庭住址、资产余额等敏感字段。如果金融机构员工利用系统或管理制度漏洞获取到个人金融信息并保存到办公终端的某份文档再发送出去,就造成违规数据泄露。

要避免违规数据泄露,首先要判断是否涉及敏感数据。而判断一份文档是否包含敏感信息要依具体的数据安全策略而定,如果一份文档包含多种类型的敏感字段或者同一类敏感字段有多条记录或者兼而有之,则可基本判定为高度疑似敏感文档,需要及时确认、处置。

由于办公终端数量众多、位置分散,终端上存放的文档数量更加是海量数据,而且数据内容时时刻刻在变化,传统的人工检查耗时耗力,检查的范围非常有限,必须依赖技术手段定期扫描检测员工的办公终端,发现其中可能存在的敏感文档。

终端数据防泄漏系统(简称终端DLP)通过采用身份认证管理、进程监控、日志分析和安全审计等技术手段,观察和记录操作员对计算机、文件、软件和数据的操作情况,发现、识别、监控计算机中的敏感数据的使用和流动,对敏感数据的违规使用进行警告、阻断等。终端DLP可一定程度解决终端敏感信息泄露问题,然而其还存在以下不足,阻碍其在金融机构大规模使用。

首先,过多占用终端资源影响用户体验。终端DLP通常主要由后台管理中心和前端代理(Agent)组成,其中前端代理需要在每一台终端上安装。为了识别文档敏感信息,终端DLP前端代理往往需要全盘读取文档建立文档索引库,在文档发生变化时文档索引库也同步更新。然而频繁的文档读取、写入操作将占用大量终端资源,影响用户体验。

其次,文档加密解密降低办公效率。部分终端DLP采用透明加密技术默认对全部文档进行加密,仅授权用户可以正常打开,加密和解密动作表面上对用户无感,但实际上仍会占用一定的系统资源,影响客户体验,而且增加了用户和权限管理的复杂度,增加了授权审批的流程,提升了办公场景下文档共享的成本,对办公习惯有较大改变。

终端DLP本身成为安全风险。终端DLP往往常驻系统运行且需要高于普通用户的系统权限才能进行进程监控、文档加解密、识别敏感信息等操作。一旦其自身存在安全漏洞,其较高的系统权限将被攻击者所利用,进而成为在内网发起横向攻击的跳板,对网络安全构成隐患。


因此金融机构迫切需要一种简单高效的技术手段准确查找定位员工办公终端上的敏感信息,及时确认、处置,否则随时面临客户数据被违规泄露的风险。



2.递进式关键字检索方案



2.1Windows搜索服务

Windows搜索服务(Windows Search)是微软公司Windows操作系统自带的一个后台服务组件,通过对指定位置(即文档目录)的所有文档和子文件夹下的文档建立索引文件,可以实现对文档内容、文档属性的高效检索。该服务默认开启,在后台运行。

在控制面板的索引选项可以查看、修改文档位置,并可勾选多个文档位置。每个位置下的所有文档和子文件夹下的文档,系统都会建立索引。当进行文档搜索的时候,实际搜索的是文档的索引文件,查询效率很高。

通过将全部磁盘的根目录添加到文档位置,系统就会给所有磁盘文档建立索引,从而可以对全盘文档进行检索。

2.2Windows搜索服务的优势与不足

Windows搜索服务主要优势是通过文档索引,实现了很高的查询效率,对索引的查询时间复杂度大约为O(log n)。经实际验证,即便文档数量高达上百万个也可以在普通终端电脑上用一两秒时间完成查询。Windows操作系统还对外提供调用搜索服务的API接口,支持类SQL语言查询,可通过编程方式调用Windows搜索服务进行定制化开发。

然而Windows搜索服务的查询灵活度十分有限。仅支持完全匹配查询[1]和通配符匹配查询[2],不支持查询具有一定规则的字符串,例如身份证号、银行卡号、手机号等,导致其应用范围受到较大的限制。


2.3递进式检索

如果基于windows搜索服务对外提供的API接口进行定制化开发,对要搜索的文件集进行初次筛选,剔除掉不相干的文件,然后再结合正则表达式对关键字做第二次筛选,就可以兼顾查询效率和灵活度,于是提出一种基于Windows搜索服务的递进式关键字检索方案。

终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村

如上图所示,首先利用Windows搜索服务的通配符匹配能力对全盘文档进行基于内容的检索,将所有包含相关内容的文档检索出来,完成第一次筛选;然后基于第一次筛选的结果文档,逐个读取文档内容并使用正则表达式进行关键字匹配,例如身份证号、银行卡号、手机号等,完成第二次筛选;最后,部分关键字还可以进行合法性,例如身份证号、银行卡号都具有相关的合法性检查算法,在正则匹配之后立即进行合法性检查,剔除掉非法字符串,完成最后一轮筛选。该方案可以对个人金融信息等敏感数据实现高效、精准的检索。



3.办公终端敏感信息高效检索实践



不同的信息安全策略对敏感信息有不同定义。这里不失一般性地,以金融机构的办公终端保存有客户的个人隐私数据为场景,当办公终端的某份文档含有10条以上的身份证号就认为属于敏感信息,展示如何采用递进式关键字检索方案高效、准确的发现含有敏感信息的文档。

3.1相关性筛选

相关性筛选是利用Windows搜索服务进行第一次筛选,其思路为利用Windows搜索服务的通配符匹配查询能力,将所有包含目标关键字相关字符串的文档筛选出来。例如对于身份证号,所有中国大陆身份证号码的前两位共有31种,根据该特征准备Windows搜索服务API使用的类SQL查询语句,然后调用Windows搜索服务的API接口查询系统索引,将所有包含以这31个数字开头的字符串的文档查找出来,就完成相关性筛选。

由于通配符匹配精度不高,相关性筛选除了将真实的身份证号字符串匹配出来以外,还会将不是身份证号但是以相同数字开头的字符串也匹配出来,因此需要进一步进行匹配性筛选。

终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村

表1 Windows搜索服务查询语句


3.2匹配性筛选

匹配性筛选是基于第一步相关性筛选得到的文档集合,依次读取每份文档并使用正则表达式对文档内容进行正则匹配,弥补Windows搜索无法识别出类似身份证号、银行卡号等有一定规则字符串的不足。

匹配性筛选有两个关键操作:首先要能读取不同类型的文档。在第一步相关性筛选得到的文档集合含有多种文档类型,包括office文档、wps文档、pdf、eml、txt等。Apache Tika是一个文档内容分析工具,利用该工具可实现仅用两行代码就能读取不同类型的文档,极大简化了文档读取操作;其次要构造出正确的正则表达式,能将有一定规则的关键字匹配出来,表2是常见敏感关键字的正则表达式。

有些敏感关键字利用正则表达式进行字符串规则匹配就能达到较好的匹配效果,例如手机号。但是还有一些敏感关键字其字符构成除了具备一定规则外,还具有合法性校验规则,满足字符构成规则的字符串不一定能通过合法性校验。例如110721999912310001符合身份证号构成规则,但却不是合法的身份证号,还需要进行第三步合法性检查。

终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村


表2 敏感关键字的正则表达式


3.3合法性筛选

合法性筛选是指对于可以进行合法性校验的关键字,在第二步完成正则匹配后立即进行合法性检查,剔除不合法的字符串,最终得到包含真实敏感关键字的文档。身份证号和银行卡号都具有合法性校验算法,具体如表3所示。

终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村


表3 敏感关键字合法性校验算法


3.4检索方案分析

经过上述过程前两步的筛选,递进式关键字检索方案可以将筛选结果的误报率压缩到很低,根据实际验证的数据,低于10%。这是因为在第二步匹配性筛选中,正则表达式可以精准地描述目标字符串的规律特征,匹配出的结果误报率已经较低。正则表达式还可以根据筛选结果不断调优,进一步降低误报率。对于存在合法性检查算法的字符串,例如身份证号和银行卡号,误报率可以做到0。因此方案分析部分将重点讨论递进式关键字检索方案的运行效率,分别开展理论分析和实证分析。


3.4.1理论分析

递进式关键字检索方案的每一步对计算和存储资源的占用、运行的时长都不一样。第一步相关性筛选由于仅涉及对Windows系统的索引查询,查询效率很高,时间复杂度为O(log n),其中n是文档数量。第二步匹配性筛选涉及对多份文档的打开和关闭操作以及对文档全文进行正则匹配。根据程序运行原理,在文档打开或关闭的时候CPU进入空闲状态,会立即被其他进程占用,因此文档打开、关闭将导致CPU在进程间频繁切换,会显著增加程序运行时间。在打开文档并读取成功后,开始对全文进行正则匹配。正则匹配的标准算法的时间复杂度是O(n’*m),其中n’是文档的字符长度,m是正则表达式长度。因此如果第二步要读取的文档数量越多,每份文档的内容越多,则运行时间也越长。如果在第二步匹配到的是身份证号或者银行卡号,则还要执行第三步合法性筛选。根据对两个合法性校验算法代码的分析可知,算法运行时间是输入规模的线性关系,即第三步的时间复杂度是O(p),其中p是身份证号或银行卡号的数量。由于O(n’)、O(m)、O(p)和O(n)的复杂度是等价的,因此完成三步筛选的时间复杂度为O(log n*n3)。

递进式关键字检索方案的运行效率还和办公终端含有的敏感信息的“密度”紧密相关。分别考虑两种极端情况:
情况一:终端中所有的文档都不包含任何敏感信息,则递进式关键字检索方案对每份文档都在第一步相关性筛选即停止,不会执行第二步、第三步。第一步的时间复杂度为O(log n),这是理论上检索时间的下限。

情况二:终端中每一份文档都含有敏感信息,且敏感信息至少包括银行卡号或身份证号,此时递进式关键字检索方案对每份文档都要执行完三步检查,时间复杂度为O(log n*n3),这是理论上检索时间的上限。
其他情况都介乎上述两种极端情况之间,因此整体上递进式关键字检索方案的时间复杂度不超过O(log n*n3)。此外,终端的CPU和内存配置也对运行效率有所影响。


3.4.2实证分析

某城商行信息科技团队按照递进式关键字检索方案自研出终端敏感信息检查工具,支持检索含有10条以上的身份证号或手机号或银行卡号的文档,还支持检索含有明文弱密码的文档。

该工具在科技团队的办公终端进行了验证运行,结果显示该工具既可以快速的检索出含有敏感信息的文档,又可以保持较高的准确度,检索结果的整体误报率低于10%。帮助员工发现了在办公终端存在时间较长、隐藏较深的敏感文档,成为安全合规人员的有力工具,降低了办公终端敏感信息泄露风险。

由于办公终端的硬件配置不同,表4选取5台在科技团队部署较多的办公终端上运行终端敏感信息工具得到的运行时间。其中办公终端3和办公终端4硬件配置相近,办公终端4的文档数量是办公终端3的10倍,但是运行时间只增加不到3倍,显示出较好的运行性能,且与理论分析结果一致。

终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村

表4 办公终端运行效果


4.总结与展望



相较于终端DLP,递进式关键字检索方案首先直接利用办公终端自带的Windows搜索服务进行初次筛选,无需为全盘文档建立文档索引库,避免因为全盘文档建立文档索引库而带来的资源占用高、用户体验差等问题;其次,基于Windows搜索服务的初次筛选将大多数不相关的文档过滤掉,大幅缩小了目标文档的检索范围,对文档的读取操作也大幅减少,助力实现高效检索;第三,在初次筛选的基础上进一步利用正则匹配和关键字合法性检查,过滤掉正则匹配失败和合法性校验不通过的文档,实现精确检索;最后,在检索完毕后直接退出运行,不常驻后台运行,难以成为横向攻击的跳板,安全风险更低。

目前某城商行基于递进式关键字检索方案自研的办公终端敏感信息检查工具已经用于针对内网环境办公终端开展常态化敏感信息检查,具有网络版和单机版。网络版适合于针对员工的办公终端定期开展终端敏感信息自查,在指定范围的办公终端运行该工具之后检查结果将会集中上收到后台服务器,员工通过指定的链接自行下载结果,确认并处理含有敏感内容的文档。单机版适合于安全合规人员对某些办公终端开展飞行检查,与网络版的自查功能相辅相成,从而逐步降低办公终端敏感信息泄露的风险。该递进式关键字检索方案正在申请一项国家发明专利。

接下来将进一步对办公终端敏感信息检查工具进行优化。目前工具可检测的敏感信息类型是内置的,还无法由用户自定义。下一步将探索由用户自定义要检测的敏感信息类型,以及更好的展示检查结果,提升工具的灵活性和易用性。


注释:
[1]完全匹配是指查询内容精确匹配查询条件,例如查询条件是“abc”,则匹配所有包含“abc”的字符串。‍‍‍‍‍
[2]通配符匹配是指查询条件必须以某字符或字符串开始,后面带上通配符*,则匹配所有以该字符或字符串开始的字符串,例如查询条件是“abc*”,则匹配所有以“abc”开头的字符串,但是请注意不匹配“abc”。 
[3]文档含有身份证或银行卡号说明完成了三步筛选,故此单独列出。 



作者介绍

赖胜枢 王海宇:广东华兴银行信息安全团队负责人、专家。




关于 大湾区金融安全专刊


大湾区专刊集合了全国数十家金融和科技机构的网络安全工作经验总结,内容涉及防护体系、资产管理、研发安全、攻防演练、安全运营、数据安全、业务安全七大主题方向,希望能为从业者提供网络安全防护方面的整体思路,向行业传播可持续金融创新和实践经验,为推动可持续金融生态发展汇聚智慧与力量。


关于 安全村


安全村始终致力于为安全人服务,通过博客、文集、专刊、沙龙等形态,交流最新的技术和资讯,增强互动与合作,与行业人员共同建设协同生态。




终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村

专刊获取方式


本次专刊的合作机构如下
赶紧关注他们
联系获取纸质版专刊吧!

终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村



原文始发于微信公众号(安全村SecUN):终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年12月19日11:19:56
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   终端敏感信息高效精准检索研究与实践|大湾区金融安全专刊·安全村http://cn-sec.com/archives/2315975.html

发表评论

匿名网友 填写信息