【资料】国家安全方面的大数据

admin 2022年5月26日11:11:37评论54 views字数 7442阅读24分48秒阅读模式

目录

执行摘要                                 

导言:国家安全方面的大数据

1.    大数据的增长

1.1     什么是大数据?

1.2     大数据的三个Vs

1.3     另外两个Vs

1.4      结论

2.    大数据趋势

2.1     目前的趋势

2.2     新出现的趋势

2.3      结论

3.      大数据在国内安全的应用 

3.1     国家安全大数据的必要性

3.2     大数据在国内安全的应用 

3.3      结论

4.      来自 大数据 引起的限制、挑战和风险 

4.1     限制

4.2     挑战

4.3     风险

4.4      结论

【资料】国家安全方面的大数据大数据趋势

行业分析人士认为,对大数据的分析正日益被视为机器学习的问题,机器学习是人工智能(AI)的狭义子集。机器学习算法已经吸引了类似于以前大数据的关注和炒作,也吸引了来自信息技术(IT)行业类似部门的关注。机器学习和大数据在很大程度上被认为是不可分割的联系,机器学习被认为是实现大数据分析的最有希望的方法。机器学习通过提供解决数据问题的新方法来解锁大数据的价值。机器学习算法不是由程序员用规则或逻辑硬编码,而是可以观察先前的实例或数据,概括一个模型,然后根据进一步的测试数据测试该模型,通过实例或数据展示“学习”的能力。此外,机器学习可以通过学习过程迭代地改进自己,并且随着机器学习获得更多的数据,导致对大数据的兴奋。


应用于大数据问题的机器学习算法的例子今天很多。机器学习已经成为日常生活中的巨大部分,以至于常见的“机器学习的商业应用通常被描述为数据挖掘”,其中“常见的应用称为数据挖掘,包括垃圾邮件或欺诈检测、信用评分和保险定价。” 正是这种普遍现象,以及机器学习算法和方法的日益复杂,使得机器学习在2015年进入了Gartner Hype Cycle,成为未来最有前途的大数据契机这种机器学习算法是“狭隘的人工智能”的例子,即旨在学习和完成狭隘目标和一组任务的人工智能。


行业分析人士指出,大数据和机器学习的融合是现代大数据运动的重要基础。风险投资家马特·特克(MattTurck)在其年度大数据产业领域指出,两家公司正在成为组合大数据和机器学习“堆栈”的一部分,或者成为提供更广泛解决方案的一揽子产品或程序的一部分。这种解决方案的集成正在发展成为一个更成熟的模型,叫做“分析作为一种服务”,而不是一个断断续续的、没有服务的产品。Amazon Web Services和其他云提供商已经越来越多地将整个平台的大数据解决方案作为服务而不是作为单独的产品来提供。随着不断努力研究大数据算法的发展,大数据最佳做法将变得更加清晰,算法之间的权衡和限制也越来越清晰。

来自从物联网(LOT)涌现的新传感器馈源。它们包括智能手表、健身手表和其他可穿戴技术,以及智能冰箱、台面、窗户、门、空调单元、能源表、洗衣机和家庭内外的其他电器。一些支持物联网(lot)的人已经把它确定为技术范式,这将有助于创建“智能城市”,其中传感器阵列能够跟踪和管理交通、应急反应、电力、公用事业、维修和其他无数但微小的优化任务,使城市运行更有效率。67 物联网(lot)也适用于生物统计学和健身设备在医疗保健方面的潜力,提供在自然环境中获取的日常健康数据,

物联网(LOT)已经在许多方面存在,但它将演变成越来越广泛,有点类似未定义的物件。因此,物联网(LOT)代表的不仅仅是连接或智能的东西:它是全方位数据收集和数据分析的新范式的一部分,被称为“数据化”,在这个范式中,世界被数字化成可供分析的数据。


国家安全中大数据的两个主要要求是处理信息共享和处理大量所有来源的信息。


大数据在国家安全领域的可能应用包括共享信息的集成;实体识别和跟踪;预测分析;产生新的假设和知识;以及预防和预测国家安全和治理。


共享信息的整合

已经朝着自动化的“数据融合”方法迈进——将各种传感器馈源和来自不同情报和国家安全机构的情报产品拼接在一起,构建实体、目标或其他“对象”的图片。数据融合自动、程序化地集成信息生成情报拼图。这种技术是典型分析师预期的工作的扩展。


大数据分析可以通过发现和链接共同感兴趣的互补、冗余和协作的数据源,如跟踪同一实体或物理上位于同一地点的数据源,使数据融合过程自动化。这可以通过提供一个集成的、相对完整的来源和事实分类法来解决 HumptyDumpty 问题,这些来源和事实可以自动地拼凑成一个“图片”,跨越传统的情报仓问题。自动数据融合带来的是构建更全面的情报拼图的能力。


Palantir Technologies提供了使用大量数据的信息搜索和发现服务。该公司提供了一个“前置部署工程师”,开发软件“通过所有可用的数据库进行组合,识别相关信息,并将所有信息放在一起”。在情报工作中,这可以用来根据感兴趣目标的购买、通信、金融交易、住宿、车辆使用、交通预订、联系网络以及其他数据和关系来可视化他们的生活。执法者可以把它作为整体和综合案件管理的统一平台。金融机构可将其适用于金融欺诈,这往往涉及犯罪网络中的人之间的联系。


更重要的是,Palantir提供了将多个数据库与用户界面集成的能力,用户界面仅需要自然语言查询,而不是编程语言,并且具有近乎实时的响应,而不是冗长的查询返回。


这使得能够基于多个不同变量提出预测和似然问题。例如,Palantir可以用来产生趋势和模式的自动警告,其方式与金融机构使用“异常值”行为作为欺诈或盗窃的指标大致相同,例如当信用卡在另一国使用或用于在边远且监管不力的加油站进行小型“测试”购买,然后再在珠宝或电子商店进行更大且风险更大的“发薪日”购买时。Palantir还可以发现一些不明显的关联,比如当Hershey公司发现当Hershey的巧克力棒放在零售店的棉花糖旁边时,销售量就上升了。同样,Palantir Defense利用地理空间信息系统(GIS)关于巴格达土地位置的数据,以及过去简易爆炸装置袭击的趋势,根据过去的袭击模式和地形,规划通过城市街道的最安全路线。


Palantir的数据聚集和可视化技术允许这些关系和动作被聚集地查看,并且让更复杂的分析在数据中运行,以获得更深入的隐藏见解。


实体识别和跟踪


非监督的机器学习算法通过将相似语义的信息分组成簇来提供非结构化数据的摘要,并且该能力应用于国家安全领域。例如,具有有效的机器学习算法的好的文本分析程序可以读取一系列抄本和文档,并识别哪些文本位与正在进行的调查相关。机器视觉和视频分析可以提供类似的功能,用于分析人员目前难以管理的无人机镜头和馈送,以及摄像头馈送,从摄像头到摄像头跟踪识别实体。这越来越可以自动地进行,并被用来提供关于目标的“推”或“馈送”信息,使分析人员专注于分析,而不是昂贵的人工信息核对。这并不能保证提要完成或拥有所有必要的信息,但它使整理手头的信息变得不那么繁重和容易出错。

【资料】国家安全方面的大数据


Orbital Insight的机器视觉算法评估卫星图像,这些卫星图像是受训练通过有监督的学习来识别的实体,并预测行为。以零售商JC Penney为例,它研究了美国各地96个Penney的停车场,发现2017年第一季度停放的车数减少了10%客户和收入。这种类型的分析被称作“宏镜”——一种让分析人员能够扫描对人眼来说太大的物体的工具。


SpaceKnow是一家卫星图像和图像分析公司,它比较了中国6000多个工业场所的照片,以及生产指标的数据,如可见库存、新建筑和其他警示标志。将结果汇总到卫星制造指数(Satellite Manufacturing Index)中,该指数被设计为一个独立生成的指数,用于与官方采购经理指数(State Purchasing Manager's Index)进行比较。

【资料】国家安全方面的大数据


在澳大利亚,数据到决策合作研究中心提供卫星图像分析能力。Immersive Intelligence Pod项目观察地理空间数据集和视觉化实体,以及随着时间的推移,这些实体在不同地点汇聚、共处(汇合)和分散(离开)的方式。该项目旨在确定有关实体的基本或常规行为模式,以及它们所参与的复杂关系和网络。这项技术已获得地理空间信息系统公司EsriAustralia的许可,该公司正在为国防部开发这项技术。

【资料】国家安全方面的大数据

这些总结技术可能意味着可以将有效的启发和搜索系统置于非结构化数据的顶部,从而免除了人类分析人员进行昂贵和烦人的数据标记的需要。这可以使分析家能够调整主题建模、文本分析和兴趣权重的系统,构建一个标签、可搜索、自动的信息馈送,这些信息被“推”到“他们”,而不是枯燥地从数据库中抽出,“有效地将针从草堆内部推出”。


这些技术还将允许大规模移动、结构或网络的可视化,以及跟踪这些网络内的实体。社交网络分析在我们这个相互联系的时代开始兴起,在这个时代,Facebook关系、Twitter社区和其他“过滤泡沫”的社会规划概括了人类网络和关系。这包括它们对恐怖主义网络的影响,如活跃在加沙地带的恐怖主义网络。这对分析人员是有益的,因为它可以迅速探索引向感兴趣的目标,例如社区内的重要节点。


预测分析

在商业领域,大数据的主要用途是基于消费者行为的预测分析。例如,GoogleAdSense基于个人用户的搜索历史和其他数据构建“模型”或“配置文件”,然后基于类似的用户配置文件以及过去搜索和潜在推荐之间的共同特征来预测“最佳推荐”。在Netflix和Amazon推荐系统等广告中已经证明了这一点,在这些广告中,个性化建议是行为概况和基于过去查看和购买数据的预测算法的函数。Google的预测性搜索和自动完成功能也具有预测功能,但更加强调将搜索查询与其他用户的搜索查询和主题模型匹配,而不是购买习惯。这种基于培训数据的预测和预测过程可用于预测传统的(天气、股票市场、赌注、信誉)和非传统的(由于社会运动而发生的起义、跟踪疾病传播、产品推荐系统)。

同样,在国家安全领域,也有机会使用自动指标,分析有害活动和行为者过去的行为、财政和其他情况,以表明潜在的威胁。纽约州情报中心的“恐怖主义指标参考卡”在旅行者个人资料中列出了几个指标,这些指标与过去的恐怖分子的个人资料相关,并可提供对未来袭击的警告,例如“最近出国旅行”、“学生签证,但不精通英语”、“拒绝女佣服务”、“拥有全球定位系统”和“异常平静和超然的行为”。

数据融合、数据馈送的自动启发、社交网络分析和预测指标以及警告分析相结合,为国家安全“事件预防”方法带来了很高的希望。事件预防包括对可能发生的事件进行预测,并监测潜在威胁,以便在必要时采取破坏性或预防性行动。


新假设生成与知识发现

大数据分析的归纳、自下而上的知识方法使相关刑事和安全数据集的挖掘能够揭示以前未曾考虑过、甚至未被人类头脑发现的相关性、模式和趋势。


因此,大数据预示着预测分析的两个好处。受监督的学习算法允许将指标和警告框架结构化成自动预警警报系统,而无监督的学习算法可以在大数据的“噪声”中找到新的指标和警告,从而能够发现新的指标和创建新的预测模型。


然而,大数据并不是“黑天鹅”事件或未知未来的灵丹妙药。基于估计概率和统计的预测依赖于过去的性能是未来性能的预测器的假设,基于过去的数据外推最佳拟合以确定未来最有可能的样子。这使得大数据分析不太可能预见到大量拐点,这些拐点产生于数据外生源,例如黑天鹅事件,或者产生于用于构建模型的数据中不呈现指示符和警告的事件。

挖掘数据以发现新的洞察力和趋势并不新鲜。百货零售商Target多年来一直在手动使用客户分析。Target为每个购物者创建一个“客人ID”号码。在每一个回合中,它将人口信息与客人身份联系起来,包括年龄、婚姻、孩子、城镇、开车到最近的Target商店的距离/时间、估计工资、最近搬家、信用卡、网站、族裔、工作历史、杂志阅读、破产、离婚、抵押/房屋、网上谈论的话题、消费的咖啡、纸巾、谷物和苹果酱品牌、政治倾向、阅读习惯、慈善汽车捐赠的数量。


基于这些细节,Target的顾客营销分析部利用习惯形成科学来识别顾客的品牌忠诚度改变的时期,例如在怀孕期,分析小组研究了怀孕期间妇女的来宾身份数据,编制了一份25种产品的清单,这些产品一起分析,为怀孕中期妇女产生了可靠的预测分数。这些产品包括钙、镁和锌补充剂;肥皂;棉球;无味和特大袋;洗手用品和洗手布。


当Target向其预测怀孕的妇女之一发送优惠券时,该模型的预测准确性被证明。这名女子的父亲怒气冲冲,冲进Target商店,抱怨Target可能暗示她做了什么。几天后,这位父亲接到客户服务电话,发现自己的女儿已经怀孕了,对此他表示歉意。这则轶事通常被认为是数据挖掘的预测性好处的最佳例子之一。批评人士称这是一个幸运的真阳性病例,它存在于更多但不那么明显的假阳性病例中(比如当非孕妇女被寄给与怀孕产品有关的优惠券时),并表示预测准确率的实际比率相对平凡。


IBM Watson,一个旨在处理非结构化数据的“认知系统”(具体地说,国家语言问题回答),被拆分为一个名为Chef Watson的示范项目。


厨师沃森摄入了数百种不同食物成分的化学成分的研究材料,以及BonAppetit网站上的一万份食谱。然后,它结合这些数据,并拖来拖去,寻找重复的模式和多达四种不同成分的组合,这将表明这些成分很好地协同工作。它后来被更新,包括其他食谱、书籍、学术研究,甚至网上的推文,以及关于食物中风味和气味化合物的分子组成的电子表格,以及“快乐心理物理学”关于气味和口味的研究论文,人们发现Watson使用这些数据来生成推荐的配料配方库,或者使用用户可用的少数配料,以及配料“协同”百分比评级来推断推荐的配料。


其中一些数据产品是原始的,不适合立即使用,在使用前需要进一步分析和判断——比如沃森建议将西红柿、大蒜、洋葱和紫色无籽葡萄组合成“紫色无籽葡萄淀粉碟”。 然而,与专业厨师配对时,沃森厨师证明有助于找到人类先前没有考虑的新组合——通过过度归纳、非创造性的试用提供中间基础。


IBM设计的ChefWatson是一个“创造性思维”的隐喻,Watson能够帮助寻找新的关系、组合、模式和其他能够导致知识发现的关联。


通过应用机器学习算法对数据进行聚类,发现对人类分析家来说不明显的关联,无论是由于数据量还是分析家的认知盲点,这些基于模型的理论寻找新的“生成器”或“线索”的数据挖掘技术正在日益自动化。


预防国家安全与预测性政府


预测性大数据分析法重振了当代国家安全研究中最具争议的问题之一:预防性警务或国家安全的概念。这一方法涉及从较慢的、临时性的监测和指标制度向自动和持续运作的制度转变。

更重要的是,预测分析现在允许这些洞察力被相对自动地、程序性地、并且简短地导出。现在越来越有可能提供“即时”服务,其中事件发生时记录事件,并向等待的分析师或决策者提供警报。这种方法已经用于特定的、高度规范的领域,例如使用传统电子和信号智能的军事机载警告和控制系统。但是,在大数据、机器学习和物联网的时代,越来越多的真实世界的特征被转换成数据,并自动扫描和分析有意义的信号,然后作为警示分析的指标进行测试和部署。

总之,即将到来的未来的数据到情报周期将涉及国家安全界所知具有情报价值的分析过程和数据集的自动化。它还涉及在数据库中发现目前未知的知识——发现新的模式、趋势和相关性。一旦被发现,就可以将其置于自动指标和警报程序中,这将使国家安全界能够对各种事件和威胁产生复杂的战略预警,如网络威胁、数据泄露、外国情报行动、大规模伤亡袭击和单狼袭击。此外,这些预测可以连续地与现实数据相比较,然后被优化以更好地反映这些数据和趋势。PaulSymon 和 Arzan Tarapore 认为,这种自动化、预测性和归纳性的智能分析方法将从“线性成品智能生产的当前工业时代模型”向集成和自适应评估服务提供的信息时代模型转变。


基于早期模型的事件识别使用替代物(EMBERS)计划是美国情报高级研究项目局的一个项目,作为该机构的开放源码指标计划的一部分运行。EMBERS的目标是制定对重大事件的预测,如内乱、疾病、抗议、暴发和选举。它旨在通过扫描开源指标来提供此类社会事件的“预测情报”,并持续优化自身以检测新型指标。从2012年8月到2016年7月,基于早期模型的使用代理的事件识别(EMBERS)作为概念验证项目运行。


早期基于模型的事件识别使用替代物(EMBERS)吸收了从每周政府报告到Twitter的十几个数据源,整理了一个完整的信息提要,每天从西班牙、葡萄牙和英国来源生成大约19.2千兆字节,地理上关注南美。然后,使用实体提取来丰富原始提要,以查找人员、地点、组织和其他特性,如文本、地理编码和最后情绪分析中的数字、日期和标签。这将系统正在处理的数据量扩展到每天40千兆字节。该程序搜索提要,以查找800个特定单词或短语中的三个或更多单词或短语的发生,这些单词或短语用作不安的语义指示符,并且经常挖掘与即将到来的社交事件相关联的其他单词、短语或散列标签。系统开发了多个机器学习模型,通常为每种类型的事件在6到8个算法之间。 然后通过主融合模块根据模型的精度对模型进行加权和优化,主融合模块以它认为产生最精确的预测的方式组合模型。


该系统平均每天发出50条警告,根据460万条信息组成的一套指标,其中350条被标为预测模型所标为重要事件。该系统预测的一些关键事件是巴拉圭总统弹劾后的抗议、巴西之春(巴西几个城市的一系列示威)、阿根廷和智利的汉坦病毒爆发、以及委内瑞拉其他学生爆发的大规模抗议。还错过了2014年12月的墨西哥抗议。


根据MITRECorporation在人类分析员编制的“黄金标准报告”中报告的每月事件目录,对使用替代物的早期基于模型的事件识别(EMBERS)运行五年,并打分。根据这项业绩审查,使用替代物的早期基于模型的事件识别(EMBERS)的持续资金依赖于。平均而言,到项目第二年,EMBER能够成功地提供早期预警,提前7%时间模型预测。

资料原文PDF及机器翻译已上传知识星球

长按识别下面的二维码可加入星球

里面已有三千余篇资料可供下载

越早加入越便宜

续费五折优惠


【资料】国家安全方面的大数据

【资料】国家安全方面的大数据

机器翻译支持: 北京百分点科技集团股份有限公司

电话:400-6240-800 

邮箱:[email protected] 2022


原文始发于微信公众号(丁爸 情报分析师的工具箱):【资料】国家安全方面的大数据

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年5月26日11:11:37
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   【资料】国家安全方面的大数据http://cn-sec.com/archives/1051381.html

发表评论

匿名网友 填写信息