传统数据分析与大数据分析在服务法律监督基本范式上的区别

admin

145987
文章

119
评论

2022年5月5日22:10:06评论67 views字数 4114阅读13分42秒阅读模式

其他

案例

声音

随笔

知识

编者按

凡新生事物，都要讲究一个范式。随着大数据思维在各行业不断酝酿，以次充好有之、招摇撞骗有之，谋私者有之、谋公者亦有之。本文不奢望能把”什么是大数据监督“说清楚，但努力讲一讲”什么不是“。本文首发于《检察技术与数字监督》（2022年第一期），作者：何熙巽、赵宪伟。

被首席大检察官“点赞”

2020年8月浙江省绍兴市人民检察院根据一些保险公司反映骗保的虚假诉讼监督申请，对涉交通事故车损保险理赔诉讼的800份民事裁判文书进行了大数据分析，发现一个唐姓汽修厂员工在短时间内密集提起26起保险理赔诉讼，案件多为车主向其受让理赔权，还有鉴定机构同一等可疑之处。经工作，绍兴市人民检察院借助大数据发现并查实车辆保险欺诈60余起，督促公安机关立案侦查涉及5个小型汽修厂的犯罪团伙共46人，涉案金额逾1500万。2021年6月张军检察长调研绍兴市人民检察院时对该工作模式高度肯定。

2022年1月召开的全国检察长会议强调，要以“检察大数据战略”赋能新时代检察工作高质量发展。笔者结合自身工作和实践，对传统数据分析技术、大数据分析技术在服务法律监督基本范式上的差别进行了思考，希望对各地贯彻落实全国检察长会议精神有所裨益。

深入理解大数据的本质

大数据技术是人类长期实践经验与数学、通信科学、计算科学等相关领域研究成果结合的产物。十八世纪，以伯努利为首的一批数学家以严密的数学形式论证了频率的稳定性，及当随机事件发生次数足够多时，事件发生的频率将会趋近于预期的概率，简单来说，就是数据样本越多，其表现出的性质就越接近背后的规律。上个世纪四十年代，数学家香农基于长期通信科学实践总结出信息论理论，并提出用信息熵度量信息量的方法。在信息论的数学体系中，信息的意义在于消除不确定性，我们关于某个事件掌握的信息量越大，信息熵的总和就越小，事件的不确定性就越低，对这个事件发生概率的预测就越接近实际值。

通过大数定律和信息论等理论成果，可以认识到大数据的本质，即通过数据中携带的信息消除事件的不确定性。在这一前提下，掌握的数据越多，数据中携带的信息就越多，消除客观规律中的不确定性就愈充分，就能以更高的概率认识到这些数据所代表的客观事物之间正确的相关性。与传统数据分析方法相比，大数据分析方法凸显三个本质区别。

一是使用数据全集，而非数据取样。在传统数据分析方法中，主要依靠抽样得到的数据来分析问题，因而为数据分析结论的准确性引入了来自片面数据源的风险。使用全集数据避免了个人视角的“狭隘”对数据分析结论的影响，使得数据分析更为全面，从而在分析过程中引入更多在原有方法中被忽略的可能性。

二是更注重数据数量，而非数据质量。对于大数据分析而言，一方面数据规模上的增加可以显著提高信息消除不确定性的能力，从而增加数据分析结论的可信度。另一方面，不精确的数据对于大数据分析结论的破坏性可以被稀释、消除，从而提高数据分析方法的可用性及分析结果的可靠性。

三是以相关关系作为分析结论，而非因果结论。这也是大数据分析方法最本质的特征，体现了大数据建立在不确定性上的方法论。大数据站在更为实用的立场上，专注于问题的解决，一般直接由相关关系指导实践，由“是什么”引导“怎么做”。在早期的大数据实践中，APRIORI关联规则算法被用于刻画顾客购买商品行为模型。基于该算法，人们发现男性超市客户购买啤酒和尿布的行为具有高关联度，且在货架上将这两类商品相邻摆放可以提高购买量。这一应用成果体现了大数据汲取信息、消除不确定因素、寻找强相关性、用相关性直接指导实践的典型流程。

大数据首先是技术上的革命，随着信息技术的发展和完善，分布式架构的提出，数据处理工具的更新迭代，数据处理规模不断扩大，量变引发质变，引发了数据处理方法、模式和应用场景的变革；大数据更是全新的思维革命，以灵活而简单的相关性代替机械而复杂的因果关系，以统计、信息论的近似方法代替从原因到结果严格推导，实现了从先有原因、再有结果到先有结果、然后直接通过结果指导实践的嬗变，为各行各业研究自然现象和社会规律带来了新的、更加有效的方式方法。

传统数据分析技术在服务法律监督上的基本范式

通过观察各地运用数据技术服务检察工作实践，可以观察总结到运用传统的数据分析方法服务法律监督的基本范式。这种范式以检察官经验为核心，用逻辑语言对模糊的经验进行确定性描述，然后将逻辑语言转换成计算机语言，形成法律监督模型。法律监督模型形成后，需要按照模型要求搜集所需的数据，通过模型进行计算，从而筛选出符合检察官经验描述的、具有“嫌疑”的法律监督线索列表。这些线索将被推送给检察官，结合当前工作进行评估，从中提取必要、适当的线索形成案件。

上述过程按照时间顺序可以划分为经验、逻辑、模型、线索、案件五个环节，可以使用下图进行描述。

传统数据分析与大数据分析在服务法律监督基本范式上的区别

图1 传统数据分析技术服务法律监督的范式

上述数据分析技术服务法律监督的范式可以被称为“自动化”法律监督。“自动化”法律监督解放了检察官人力，使大规模运用数据成为可能，实现了对数据的初步利用。同时，使检察官的办案经验规范化，便于地方办案经验向全国推广，有效提高检察机关法律监督水平，具有重要实践意义。

另一方面，“自动化”法律监督需要运用计算机技术对大规模数据开展线索筛选、排查工作，在实践中容易与大数据法律监督相混淆。由于“自动化”法律监督以确定性的因果关系主导，而非统计学、概率性的相关关系主导，模型构建依据来源于检察官办案经验，而非通过获取数据信息消除不确定性而导出的数据中蕴含的规律。根据我们对大数据本质的理解，“自动化”法律监督并未实质上利用大数据技术，因而与真正意义上的大数据法律监督相比，在数据利用水平上还存在一定差别。

大数据分析技术在服务法律监督上的基本范式

我们认为，大数据技术在法律监督中的应用必须遵循以数据为中心的原则，改变以经验为核心的传统范式，用数据驱动代替经验驱动，不断从数据中获取有价值的法律监督方向，形成大数据法律监督的基本范式。在新的范式中，对数据的利用要改变“有什么监督模型，就利用什么数据”的旧模式，转而采用“有什么数据，就研究什么方面的监督模型”的新模式。

传统数据分析与大数据分析在服务法律监督基本范式上的区别

图2 大数据分析技术服务法律监督的范式

首先以最大努力收集数据，构建检察大数据库，作为大数据分析的基础。

在数据基础上，要充分运用决策树、聚类、分类、频繁项集、回归分析方法等大数据分析方法，在不引入经验或有限引入经验的前提下，直接通过挖掘数据中蕴含的分类关系、关联关系、定量关系和特异点等特征发现监督线索。由于法律监督相对商业行为的严肃性，在获得监督线索后，要引入经验和分析研判环节，确定线索与现实行为的对应关系，明确该线索是否必要、适当。

然后，针对有价值的线索，需要将大数据分析成果，运用机器学习方法，转化为决策树、分类器，回归方程等实践中可以直接运用的法律监督模型，结合数据收集情况投入使用。

最后，基于大数据技术和机器学习等技术特性，利用模型运行过程产生的反映模型精确度、法律监督价值等情况的数据对模型进行优化，使模型参数更准确，更能够反映现实情况，从而持续提高大数据法律监督质效。

上述过程体现的大数据法律监督基本范式可以划分为数据、线索、研判、模型、优化五个环节，不仅改变了数据分析服务法律监督的主要流程，而且在大数据技术的应用、对经验的依赖和数据驱动检察业务等方面相对于数据监督方法有显著提升。

大数据法律监督的关键要点

为了提高大数据分析技术服务法律监督工作水平，将“检察大数据战略”赋能法律监督的作用发挥到实处，基于大数据技术的本质特点及对大数据法律监督流程和主要环节的思考，我们认为大数据法律监督的实施过程中需要把握好四个关键要点。

数据要多。在大数据概念中，“大”这一概念是区分大数据分析方法与传统数据分析方法的核心。要运用大数据技术赋能法律监督，不仅要求数据覆盖面广，也对数据的绝对数量提出了更高要求，总而言之，就是“多多益善”、“来者不拒”。为此，要做好数据“开源”，一方面有效汇集检察机关内部数据，分类整理并长期存储、维护，另一方面推进与其他部门、机构的联网与数据共享，在安全保密的基础上做到“互通有无”，持续积累各方数据。

要重视技术。大数据是一门以统计学、计算科学和数学交叉而成的，具有很强专业性的学科。要用好大数据，首先要学好大数据，而要学好大数据，首先要对大数据的专业性、技术性有清醒的认识。要意识到仅靠大数据思维不足以解决实际问题，必须要学习理解大数据背后的数学、统计学、计算科学知识和原理，大数据典型算法，掌握常见的大数据分析工具乃至一门或数门计算机编程语言。还要意识到大数据素质的培养不是一蹴而就的，必须要经过长期的坚持和努力和系统性地教育。为此，要特别重视引入和培养大数据领域专业人才，做到适材适所，人尽其用。

进一步培养线索研判能力。由于大数据法律监督的严肃性，直接采用数据分析得出的线索指导实践是不恰当的，必须引入经验，判断该线索对应异常情况是否由违法行为导致，相应的法律监督点是否合理。由于大数据技术重视相关关系而非因果关系，只能提取统计学规律而非客观世界的真实规律，规律可能是隐蔽、复杂，违反常理，超出范围，甚至是片面、虚假的，大大加深了上述线索研判工作的难度。为了保障大数据法律监督的重要环节，有效开展线索研判环节的工作，有关人员需要进一步培养线索研判能力，了解检察业务和社会，提高逻辑思维能力，掌握线索推演、推导方式方法。

要在实践中优化。大数据技术以概率性为重要特征，大数据分析成果只能接近实际规律，而非与实际规律完全一致，因而在实践过程中永远有提高的空间，需要我们持续用数据“喂养”大数据模型，不断提高模型的精度与可靠性，进而提高对应法律监督点的应用价值，同时能够帮助已成型的大数据法律监督模型“与时俱进”，延长生命周期。此外，实践还可能帮助我们发现模型背后蕴含的现实规律和因果关系，从而提高运用模型分析结果的内心确信。

原文始发于微信公众号（信息时代的犯罪侦查）：传统数据分析与大数据分析在服务法律监督基本范式上的区别

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

传统数据分析与大数据分析在服务法律监督基本范式上的区别

NSFOCUS旧友记大嘴妹秦波

加拿大以国家安全为由打压中国企业，海康威视被迫关闭加拿大业务

【厂商不承认的漏洞】某设备接口未授权实现任意密码修改

企业级私有 docker 镜像仓库 Harbor

Docker常见指令大全，全背会爽到起飞！

害人害己：对跟踪软件说不

译文 | 捕获 RDP NetNTLMv2 哈希：攻击详细信息和操作指南

译文 | 实战 - 使用 krbrelayx 和 mitm6 通过 DNS 中继 Kerberos

国内电子数据取证相关标准及技术规范获取方法

调用Kubernetes API时可能会发现的问题

发表评论

在线咨询

微信