非结构化数据的发展和应用引发了审计领域的方法创新,非结构化数据的采集、处理及分析已成为数字化审计的核心。本文提出的非结构化数据是结构不规则、不完整且不能用数据库二维逻辑来表现的数据,包括办公文档、文本、图片、邮件和音频视频等。在海量数据中,结构化数据难以代表整体,非结构化数据形式提供的审计资料中往往蕴藏着重要的审计线索和证据。大数据环境下,企业信息化程度较高,线上和线下产生的数据体量庞大、数据种类繁多,在开展数字化审计时习惯从结构化数据中寻找审计证据链,而在面对数据格式多样、异构程度较高的非结构化数据的处理和分析时存在技术和方法的局限性,从而导致审计数据价值密度较低,进而影响数字化审计的质量和效率。为实现数字化全样本、全业务审计监督,企业需要处理并整合结构化和非结构化数据,以多样化的数据源保证审计内容的全面性和完整性。
非结构化嵌入技术理论基础
在内部审计资料中,非结构化数据包括文本类、图像类和视频类数据。审计人员在具体的审计工作过程中,需要接触大量的非结构化数据,这些数据多以非结构化的形式留存,包含Word、PDF、WPS、JPG/JPEG等格式文档。为了将文档中所蕴含的关键审计数据提取并应用到审计工作中,非结构化嵌入技术提供了可行性方案。
非结构化嵌入技术主要依托文字识别(OCR)技术和信息抽取技术。文字识别是利用光学技术和计算机技术把印刷或者手写在纸上的文字识别出来,并转化为一种计算机能够接受、人可以理解的形式,涉及的检测算法有FasterRCNN、CTPN、FCN等,识别算法有CRNN、CRNN+CTC、seq2seq-attention等。信息抽取是从非结构化或半结构化文本中抽取出结构化数据,输入信息抽取系统的是原始文本,输出的是固定格式的信息点。涉及的信息抽取方法有基于模式或规则的信息实体抽取方法、基于序列标注等监督学习技术的档案关系抽取方法、基于分类等监督学习信息实体抽取方法。
非结构化嵌入技术的数字化审计技术框架
基于非结构化嵌入技术方案的研究与总结,数字化审计技术框架如下图所示:
1.数据源层。当前数据来源有三个途径:一是通过企业数据中心集成各专业系统的非结构化数据;二是通过离线小工具导入系统外的非结构化数据;三是通过网络爬虫技术导入外部互联网非结构化数据。归集要分析的所有数据,针对内部设计需要,收集合同类数据、招标类数据和基建管控类数据作为基础分析数据。
2.数据处理层。将非结构化数据通过OCR识别、规则抽取技术,提取文档中的关键信息。
3.结构化数据层。将提取出的关键信息通过Excel格式展示,供审计人员进行下一步的数据分析,为审计工作做数据支撑。
4.数据应用层。对抽取出的结构化数据和其余的非结构化数据进行分析,从审计业务的角度进行分析,建立审计目的和业务实质密切相关的数字化审计模型。
非结构化嵌入技术的数字化审计方法
结合审计实务实践,基于非结构化嵌入技术的实践应用,将非结构化数据处理转换为结构化数据后存储至数据库,根据审计关注点和审计规则,与其他结构化数据联合分析,固化基于非结构化数据转换技术的审计模型。非结构化审计模型固化流程如下图所示:
非结构化数据转换:将非结构化数据文档通过非结构化数据处理分析工具转换为结构化数据,保存本地或数据库。
构建数据表:基于非结构化数据转换成果,在中台分析层设计、构建结构化数据表。
非结构化审计模型功能设计:将非结构化数据中提取的关键信息与业务系统内关键业务信息通过设定逻辑规则关联分析,从而实现非结构化数据与结构化数据的深度融合,保障审计内容的全面性和完整性。
非结构化审计模型数据寻源:
数据分析:根据审计关注点、审计规则及数据寻源结果,编写SQL脚本将非结构化数据转换成果与业务系统结构化数据进行融合分析,并固化审计模型。
应用实践
结合审计实务实践,选取合同签订合规性与合同履约情况典型业务场景,阐述非结构化嵌入技术在数字化审计的应用。应用全过程包括非结构化数据采集、非结构化数据结构化处理、数据分析及输出疑点。审计模型应用实例流程如下图所示:
文件下载:在经法系统中批量下载各单位施工类合同及其对应的中标通知书。
非结构化数据结构化处理:下载的施工类合同和中标通知书为非结构化数据文件,首先在非结构化数据处理分析工具中配置数据抽取规则(选择基于规则抽取模式),编写施工类合同和中标通知书数据抽取正则表达式;然后批量上传上述非结构化数据文档,工具按照配置好的规则自动化识别和抽取;最后将施工类合同和中标通知书提取出的结构化数据以表格形式输出。
建立表结构:结构化数据转换成功后,在数据库中建立合同明细表和中标通知书信息表,并插入非结构化数据转换成果。
数据分析:根据审计规则将非结构化数据转换成果与ERP系统中结构化数据联合分析,运用SQL编程语言开发审计模型。
审计规则:1.施工类合同与中标通知书关键信息比对,查询是否按中标结果签订合同,合同签订是否及时;2.施工类合同关键信息与ERP项目采购、付款信息进行比对,查看采购、付款是否严格按照合同进行履约。
非结构化数据转换成果:合同明细表、中标通知书信息表。
ERP系统业务数据表:中标情况表、合同表、采购订单表、项目定义表、WBS元素表、付款信息表等。
审计模型:在数字化审计平台两库固化SQL脚本,输出疑点数据。通过合同签订合规性审计、合同履约情况审计模型精准发现合同签订不及时(未在中标通知书下发30天内签订合同)及未按照合同履约(工程未按照合同约定条件付款)等审计问题,有效提高了数字化审计效率、效果。
来源:《网络安全和信息化》杂志
作者:国网宁夏电力有限公司 魏宁霞
(本文不涉密)
原文始发于微信公众号(网络安全和信息化):基于非结构化嵌入技术的数字化审计探索与实现
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论