为贯彻落实《中华人民共和国数据安全法》《工业和信息化领域数据安全管理办法(试行)》和《工业和信息化部等十六部门关于促进数据安全产业发展的指导意见》,充分挖掘工业和信息化领域数据安全防护典型经验做法,切实增强行业数据安全保障水平,工业和信息化部组织开展了2023年工业和信息化领域数据安全典型案例遴选工作。此次典型案例遴选,按照“以点带面、点面结合”原则,面向工业、电信和互联网领域,征集了数据安全基础共性、数据安全监测分析、数据安全整体设计实施等“四方向、十类型”数据安全典型案例,经过申报推荐、形式审查、专业初审、专家评审和网上公示,在全国300余项申报方案中挖掘出了72项行业广泛认可、企业应用效果良好的典型案例,为指导工信领域数据处理者提高数据安全防护能力,促进数据安全技术、产品和服务产业化应用提供了重要参考。
本期分享2023年工业和信息化领域数据安全基础共性方向—数据分类分级类典型案例:北京联通、上海观安《基于深度学习技术的非结构化数据自动分类分级实现》。
相关链接:
北京联通非结构化数据识别主要聚焦于个人身份证图片信息、个人人脸信息和系统建设拓扑图信息,以此作为最主要的非结构化数据识别和自动分类分级的安全场景进行研究,构建以数据自动识别、分类分级和访问行为管控与审计为核心的非结构化数据识别体系。
针对格式内容复杂、识别干扰多的非结构化数据,提升了敏感数据的识别能力,解决电信行业身份证图片、人脸图像、系统拓扑图三类关键业务场景下的敏感数据识别问题,切实帮助安全管理人员摸清敏感数据家底,进一步做细数据分类分级、敏感数据监控等安全防护工作。对发现的敏感数据进行访问和导出控制等防护措施,减少不必要的数据流动风险。
综合测试不同基础模型的准确率与速度,选用高性能深度学习模型PP-PicoDet进行训练,提升模型准确率。同时,定期进行识别策略调优,通过人工核验、重点收集、增强训练和模型迭代四个环节发现错误结果,补充增强训练样本集,通过迭代训练优化识别模型。在实施过程中配套采取文档摘要校验模式,仅针对增量或变量文件进行识别,提高运行效率。
根据运营商业务特性,个人身份证图片、人脸图片信息、系统拓扑图等非结构化数据在电信行业内具有普适性,识别的场景需求在所有基础电信企业中均会涉及,能够为安全管控措施提供基础支撑。同时识别能力客户端可以选择单独部署或提供开放识别能力,原始数据不离开存储环境,减少数据不必要的流动。
申报单位:中国联合网络通信有限公司北京市分公司
北京联通作为北京地区全业务电信运营商,在为社会各界提供通讯业务同时,也致力于为党政军用户提供重要通信保障服务。在二十大、冬奥会等国家级重大事件中,北京联通均提供了稳定安全的通讯服务,圆满完成历次重要保障任务。北京联通坚决落实国家网络强国战略部署,扛起央企社会责任,争当践行数据安全监管的“先行者”。
联合申报单位:上海观安信息技术股份有限公司
上海观安信息技术股份有限公司是一家提供大数据+泛安全产品与服务的高新技术企业。公司聚焦数据安全、网络空间安全、5G安全、工业互联网安全、人工智能安全及公共安全等核心方向,为运营商、政府、金融、电力、公安、医疗等行业用户提供全面的信息安全解决方案。
大量的企业数据、用户数据和业务数据在服务社会、服务用户的同时也对企业数据资产分类分级管理提出了更高的要求。由于数据多样性、业务多样性等,需要不断完善企业数据分类分级管理体系。北京联通持续落实数据分类分级合规管理,对于结构化数据已有成熟的数据识别和分类分级方案,然而对于非结构化数据的识别和自动分类分级仍需探索和实施。
1、整体设计架构
北京联通非结构化数据识别和自动分类分级能力,由数据输入、交互层、模型层和运行环境四部分组成。
数据输入:用于扫描服务器路径、文件信息和文件类型。
交互层:用户实现文件扫描、文件分类、文件中图片提取、图像预处理、记录日志等功能。
模型层:负责模型构建、优化、存储、调用和输出模型结果等功能。
运行环境:用户控制Agent端的任务执行和模型结果更新。
2、主要建设内容
北京联通在对个人身份证图片、个人人脸图片和系统建设拓扑图的存储环境、格式等信息梳理后,采用信息提取,深度学习等技术实现非结构化数据识别能力。
能力实现分为准备数据集、构建识别模型、识别策略调优三个阶段。首先采用图像变换,剪裁,混叠等策略处理图像后获取公开的人脸、身份证、系统拓扑等图片作为模型训练的基础数据;然后通过文件预处理、模型训练和模型验证三个环节构建识别模型;最后根据实际场景,通过人工核验、重点收集、增强训练、模型迭代四个步骤进行策略调优。
3、功能特点
一是基于自动化识别能力实现增量和变量数据扫描任务自动化执行,完成大规模数据处理并动态优化识别策略。二是基于系统模块化设计,提高系统开发、测试和运行效率,提升系统的可修改性和可扩展性,降低系统维护时间。
4、性能指标
将整体能力分解成多个相互独立的模块进行设计开发、测试维护,可以在不影响其他模块的情况下进行修改或替换。通过测试,该系统敏感图片发现模型准确率指标在95%以上,敏感图片发现模型召回率指标在90%以上。
1、案例成果
北京联通目前已完成上述能力的建设和落地,帮助企业完成非结构化敏感数据的全面梳理,能够依据数据识别策略,在对数据进行全面扫描后,形成敏感数据识别结果和报告,为北京联通落实企业数据资产全量管理和分类分级管控提供了有效保障。
能力目前累计完成了1300万余个文件的扫描识别和分类分级,发现敏感文件目录86个。使用数据识别结果,通过数据运维网关配置文件级的数据管控策略,实现对文件的读取下载进行审批和阻断。目前累计触发二次审批2900余次,有效管控了数据下载行为。
2、可推广性
经过一年多的使用和验证,北京联通建立的非结构化敏感数据识别能力不仅为电信行业普遍存在的隐私保护问题提供了有力参考,而且该能力相较于传统的图像特征值等非结构化数据对比方式有明显的准确率提升,具备在电信行业内的普适性和可推广性,并且识别的场景能够根据不同企业内部需求和分类分级策略进行相应调整和扩展,具有很强的推广价值。
理事服务 | 会员服务
请联系:13810321968(微信同号)
商务合作 | 开白转载 | 媒体交流 | 文章投稿
请联系:13810321968(微信同号)
原文始发于微信公众号(关键信息基础设施安全保护联盟):基于深度学习技术的非结构化数据自动分类分级实现
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论