了解一下非结构化数据分析技术吧,吃了一惊

admin 2022年4月13日12:47:23评论36 views字数 801阅读2分40秒阅读模式


了解一下非结构化数据分析技术吧,吃了一惊


互联网发展到今天,如果谁还不知道大数据,其实是不太好意思跟别人打招呼的。对于这一点,笔者也深以为然。然而,究竟如何实现大数据应用,我相信很多人未必能说出一个具有建设性的点子。在商业化应用上,或许还能忽悠一下,在相对封闭的系统或者行业,何其难也?

笔者近期接触到一家JC机构,该机构利用其较好的技术基础,建设了覆盖全国的内部云平台。此处,仅举一个具备大数据应用思维的“点”,用户通过该平台,能过获取手机号码的应用者姓名,其命中概率居然能达到35%以上。这样一个平台,为其办案业务提供了很好的效率。为了满足好事者的胃口,小编就在此与大家分享一下粗浅的思路。当然,具体的技术细节,还是要切实履行保密承诺的。

了解一下非结构化数据分析技术吧,吃了一惊

据该平台的建设者介绍,他们有效运用了一个更为宽广的思路,那就是非结构化数据文件

什么是非结构化数据文件呢?我们还是先了解一下什么是结构化数据文件吧。大家熟知的excel文件、数据库表格等,都是非常规范的二维表,这就是结构化数据。对结构化数据的处理,因为相对简单,不再赘述。

结构化数据之外的其他数据,都可以称得上非结构化数据。该机构所关注的非结构化数据主要是各类文档数据,比如:txt、doc、pdf、rtf、htm、jpg、mpg、rar、db……。

他们建立了获取各类文档的渠道和方法,对于这些数据文件,通过实施“模型计划”进行自然语义的深度挖掘,从中找出地名、人名、手机号码、邮箱号码、交流内容、身份信息……,初步估计了一下,能够解析出的自然语义内容包括几百个小类别。

了解一下非结构化数据分析技术吧,吃了一惊

对于解析出来的自然语义,又与源文件形成关联,进而满足用户的多层次需求。

小编也曾怀疑,通过这样的处理方法,能够获取的信息量能有多大呢?然而,仔细了解后,我才深感自己的“小”来。

了解一下非结构化数据分析技术吧,吃了一惊

不要相信所谓的侥幸心理,你的一切都可以被分析出来,小编没骗你,是你在骗自己。


原文始发于微信公众号(信息时代的犯罪侦查):了解一下非结构化数据分析技术吧,吃了一惊

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年4月13日12:47:23
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   了解一下非结构化数据分析技术吧,吃了一惊http://cn-sec.com/archives/903640.html

发表评论

匿名网友 填写信息