【资料】战术大数据分析:挑战、使用案例和解决方案

admin 2022年8月28日08:44:00评论10 views字数 6281阅读20分56秒阅读模式

本文机器翻译由百分点智能翻译提供

官网地址:http://translate.percent.cn/

公司官网:https://www.percent.cn/

【摘要】
我们讨论了大数据分析在底层数据、应用程序空间和计算环境方面的战术挑战,并提出了一个受相关战术使用案例驱动的综合解决方案框架。首先,我们总结了国防部(DoD)背景下大数据问题的独特特征,并强调了大数据问题与商业大数据问题的主要区别。然后,我们介绍了两个使用案例,(2)多情报(多INT)传感器数据的大数据分析和(2)使用MapReduce框架的人机互动。针对这两个使用案例,我们在一个连贯的框架中介绍了大数据分析和云计算解决方案,以支持战术数据、应用和计算需求。
【关键词】大数据、云计算、分析、算法、战术环境



1.引言
尽管由于大量的高分辨率高通量传感器,数据收集的速度已经变得前所未有,但也很明显,令人满意地分析大数据的合适算法和工具在很大程度上是缺失的。在战术领域,这一挑战甚至被放大了,科学收集的战术数据缺少环节,大多是非结构化和异质的,涉及不同程度的完整性和标准化。


当前用于管理和分析战术信息的国防部系统和流程不能有效地扩展以应对不断增长的数据的挑战。同时,我们可以从商业世界借鉴的工具、算法和数据管理技术并不能直接适用于国防部领域的应用程序的需求。例如,设想的海军战术云由一组云组成,这些云位于地理上距离很远的地方,例如太平洋海岸、大西洋海岸和大西洋和太平洋中的航母群。因此,从根本上讲,需要采用与任务决策周期有关的新的分析和数据管理方法。


预计云计算将有利于大数据分析。然而,整合大数据中心中的所有计算和存储资源(在商业领域中大多是这样做)在战术领域效率不高(而且往往不可行)。整合数据中心和战术大数据分析面临的三个最重要挑战如下


·战术云很可能会受到带宽限制,而且可能会在很长一段时间内脱离网络。带宽在具有挑战性的环境中非常昂贵,例如在公海或基础设施有限的国家。常规操作(如数据复制)可能无法实现。
·安全。以网络为中心的云允许以分布式方式存储数据,一些数据服务由移动计算平台(例如悍马)提供。此外,一些数据中心/服务器位于环境不友好的传感器附近。数据服务器/中心可能不在可信机构的完全控制之下;相反,它可能由不可信的单元租用、提供或维护。
·在战术环境中,角色可能会很快发生变化。在商业领域,谁是生产者和消费者是显而易见的。在战场环境中,这些角色可以很快改变。作战人员可以在很长一段时间内成为数据和分析的消费者,但根据任务的不同,作战人员可能会通过便携式传感器扮演数据生产者的角色。


2.战术大数据挑战
我们将战术大数据问题的主要特征区分如下
2.1应用程序和数据
·情报、监视和侦察(ISR)应用。一些ISR应用程序与商业应用程序(如入侵检测和异常检测)一样常见。然而,有些ISR应用程序是战术环境所特有的,例如目标跟踪和定位(TTL)和持续监视(Persistent SurveMonitoring)。它们通常具有严格的延迟要求,并且涉及实时或接近实时的目标。
·使命驱动的目标。战术大数据问题的目标是由严格的任务需求驱动的,而不是像商业应用程序那样受到经济因素的驱动。这在问题空间中引入了额外的约束,比如数据源、处理器和用户的分层顺序(超出了商业应用程序中的服务器-客户端范例)。
·异类数据源。国防部的数据大多是非结构化的,如信号、文本、图像和视频等,其标准化程度各不相同。这些数据是由各种传感器(例如,激光雷达、雷达、高光谱成像(HSI)、光电(EO)、红外(IR)、视频)在大片地理区域上以不同的分辨率、完整性和不确定性获得的。大多数情况下,数据不是事务性的(例如,传感器数据与购买数据不同,它包含高度不确定性)。
·不确定/不完整/有干扰的数据。不确定性可能由各种不准确引起,它们应该在数据结构中表示出来。模糊方法不足以解决数据收集中的不确定性(例如,低信噪比)。需要解决由算法(例如,次优学习算法)、模型中的逻辑不一致(例如,冲突模式)和可伸缩的新方法引起的不确定性的方法。
·严格的安全要求。将军事数据与其他商业服务放在同一虚拟环境中可能无法满足国防部严格的安全要求(例如防止数据被盗和腐败攻击)。


2.2计算体系结构
·有限的网络带宽。例如,在公海和敌区等具有挑战性(竞争激烈)的地区,带宽是极其昂贵的。此外,军用无线电(例如,在机载网络中)固有地受到恶劣的通信环境(例如,无线衰落、多径、移动性)和干扰/窃听攻击的影响。
·不同的处理能力。战术网络由不同的用户组成,从智能手机到数据中心,在同一数据收集、处理和交付环境中共存和交互。
·不同的角色。在战术环境中,用户可能在不同的时间扮演不同的角色:它可能是生产者(提供数据)、处理器(提供计算能力)或消费者(要求苛刻的任务)。这超出了商业应用程序中的服务器-客户端范例。
·分布式系统要求。战术应用中的传感、存储和计算单元通常不在同一位置,而是分布在一个地理区域。

战术环境中的最终用户包括作战人员和智能分析师等角色,每个角色都有不同的属性。战机的特点是不确定的查询和不确定的数据,他/她只知道他/她在地标附近,但不确定确切的位置;数据库中地标的位置空间精度很低,有些地标已经不在那里了。作战人员的属性可以概括为:
·计算能力低(可能是PDA/平板电脑)。
·实时要求
·技术专长有限
·简单的任务(查询)(例如,询问诸如“告诉我关于我们面前的[桥/谷]的情况”之类的问题。)。或者“(在过去的3个月里)这个地区有没有发生过(简易爆炸装置袭击/爆炸)?”

另一方面,情报分析员的计算能力超过了战机。Intelligence Analyst属性可以概括为:
·高计算能力(拥有强大的数据中心/云)。
·批处理
·经验丰富/训练有素
·与系统的复杂交互(例如,可以使用专门的查询语言)。


3.战术大数据使用案例
3.1使用案例1:使用多INT传感器数据进行大数据分析
作为第一个使用案例,我们考虑使用多智能(多集成)传感器数据进行大数据分析。主要的挑战是,分析应该通过使用地理上分散的数据的多级数据融合来进行。数据来源来自全动态视频(FMV)、图像、广域监视、光电/红外、雷达和人类情报(HUMINT)。此外,爬虫方面的网络域传感器还可用于从社交媒体、新闻、博客和评论中收集文本数据。由于传感器位于地理上分布的位置,因此传感器数据可以存储在(1)用于检索和提取的大型数据档案(例如,在云中)中,(2)保存在聚合节点(例如,移动网关)处,或者(Iii)保持在为数据分发提供的传感器和触发器附近(例如,传感器本身)。


情报自动化公司。(IAI)在美国国防部赞助的各种项目1中,解决了与挑战性(例如,带宽有限)环境中的联合分析、分布式存储和内容分发相关的一些挑战。我们正在设想一个系统,在这个系统中,最终用户,如战士,用他们的PDA/平板电脑使用自然语言问题与系统进行互动。举个例子,一艘海军舰艇停靠在一个与美国关系紧张的国家的外国港口。目标是预测(在接下来的几天左右)是否会发生一场社会起义。一个可能的问题是,“在未来两天内,(港口)周围会不会发生一场(社会起义)?”尽管问题简单明了,但分析需要跨地理分布的数据存储进行查询和运行分析。除了数据量,数据的多样性使分析更加复杂。为了应对这些挑战,我们正在构建一个由五层组成的系统,即应用层、语义层、分析层、存储层和分布层。根据这位战士的问题,我们将一层层地走下去,如下所示。


应用层:通过Ozone小工具实现与最终用户的交互。Ozone小工具是可定制的开源轻量级Web应用程序,它集合了完成各种任务所需的工具,并使这些工具能够相互通信。可视化也是这一层的重要组成部分。


语义层:
这一层消化自然语言问题,确定问题的类别,并利用加州大学伯克利分校的框架网对问题进行句法分析。然后准备查询摘要。查询抽象过程涉及在可能的情况下填充查询。在社会起义的情况下,可以使用相关的社会运动本体论。这一层的主要挑战是实现跨不同数据集的语义互操作性。


分析层:这一层负责大数据分析、计算和大部分处理。一般来说,预计将同时支持批处理和近乎实时的分析。批处理可以包装在Hadoop Core中,作为MapReduce作业执行,并得到其他Hadoop生态系统组件(如Pig、HBase和Have)的支持。使用共享内存架构的GraphLab[8]可以支持图形分析。可以利用STORM[9]来支持较短的指挥和控制决策周期。作为一个例子,考虑一下描述一些活动的全动态视频和Twitter消息,其中包含对美国在特定港口部署的负面情绪。从视频中,我们可以提取描述可疑活动的各种特征。然后,我们使用主题建模算法(如潜在Dirichlet算法[10])对活动进行分类,并预测是否存在威胁。类似地,人们可以使用例如图表分析来检查Twitter消息是否正在变得病毒式传播。当然,挑战在于建立使用海量数据来运行这些算法的能力,以限制误警率。我们在IAI开发的用于支持分析功能的高级架构如图1所示。

【资料】战术大数据分析:挑战、使用案例和解决方案

图1:IAI大数据分析架构

存储层:如前所述,数据不需要存储在数据中心,有时可以驻留在靠近传感器和聚合节点的位置。接下来的挑战是支持内容复制,并跨数据存储保持所需的一致性和可用性。此外,分布式索引(如分布式哈希表)应该在合理的时间内支持数据发现。


分发层:这一层主要负责内容分发。在内容提供商提交文档之后,文档首先存储在源服务器中。然后,内容在几种情况下被复制到其他代理(缓存服务器)上,例如分发任务、内容提供商的首选项、内容访问统计信息或负载平衡要求。在所有这些情况下,内容和相关文档都会复制到其他区域网络中的一个或多个代理,以加快最终用户的数据访问速度。


3.2使用案例2:使用MapReduce框架的人机集成
众包正在成为在线完成任务的一种有效机制。不断发展的战术云架构非常适合在危机应对期间使用众包然而,在危机应对任务中,将众包作为指挥官的一种分布式分析能力来实施,预计将不同于这项技术的商业使用。特别是,为了适应众包(例如,用于灾难和危机应对),必须同时从具有不同能力级别的人和机器接收,并且应该仔细组合,以便可靠地执行任务。


为了在危机应对期间启用并支持有效使用众包,情报自动化公司(Intelligence Automation,Inc.)。设想一个“危机和灾难应用程序众包(CrowdApp)”系统。该系统的灵感来自CrowdForge。从广义上讲,CrowdApp是一个从人类智能和机器分析功能来完成复杂任务的框架。CrowdApp框架从可以组合和嵌套的小任务填充工作流,以应对灾难和危机应用程序,包括数据收集和识别社会变化或活动。
人类智能和机器分析问题的解决过程都遵循MAP Reduce结构,在该结构中,中间的<key,value>对被提供给执行“Reduce”任务的人类(工人)或计算节点。对于人类来说,MAP和REDUSE步骤是用来解决认知负荷和模式识别方面的任务,而机器的任务则侧重于计算负荷的任务。通过适当地组合各个结果,这些结果会自动减少。CrowdApp根据(1)人类专业知识和认知负荷,以及(2)机器可用性、能力和可靠性,通过优化调度任务原语来自动管理可用资源,从而充分利用数据局部性。
使用图2,我们的框架的一些优势可以列举如下:


·CrowdApp允许提交复杂的任务(#1),并通过对原始任务的优化调度自动填充工作流(#2):以前的工作主要集中在简单的任务上,如图像标注或判断搜索结果的相关性。在这里,我们设想了一个更通用的框架,用于完成复杂的任务,如社会起义探测(例如,关于外国大使馆的情况感知)或救灾(例如,洪泛区地图)。我们的框架允许动态分区,以便工作人员(系统中的人力资源)自己可以决定任务分区,其结果进而生成新的子任务(而不是任务设计者事先要求完全指定的分区)。CrowdApp还支持多级分区,在这种分区中,一个任务可以被多个分区拆分。

图2:设想的CrowdApp架构

【资料】战术大数据分析:挑战、使用案例和解决方案


我们可以运行自动节点发现,利用基于图的社区检测的高级社交媒体分析。在此之后,可以基于可用资源的知识,例如(1)人的专业知识、认知负荷,以及(2)机器可用性、处理能力和可靠性,对人和机器进行最优调度。


·CrowdApp承认通过自动约简流程(#3)众包人工智能任务(HIT):我们遵循一个三步流程(分区、映射和约简)众包复杂任务,以实现高质量的结果。特别地,使用分区步骤,较大的任务被分解为离散的子任务。在MAP任务中,指定的子任务由一个或多个工作进程处理,最后,在归约任务中,多个工作进程的结果通常通过投票过程合并到单个输出中。这个由三个步骤组成的流程允许对子任务和任务之间的流程进行无缝管理。


·CrowdApp允许基于MapReduce对Machine Analytic功能进行众包(#4):虽然Map Reduce构造的最流行实现是云环境中的Hadoop,但这种两步解决问题的方法也可以应用于其他处理节点。因此,我们认为所有的处理单元,特别是那些靠近战机和灾区的处理单元,都可以用于分布式机器分析计算,这样系统就可以有效地利用数据的局部性。如果数据中心可用,即传统云,那么我们可以使用Hadoop及其生态系统来解决分配给该数据中心的原始任务。如果功能较弱的节点可用,一种选择是使用Sector/Sphere执行分布式任务原语,这允许使用非常简单的API进行并行数据处理。扇区/球体IS还可以在适合战术云的广域网(WAN)设置下运行。


·CrowdApp支持使用人机响应的数据融合工作流程(#5):#1-#4的任务输出(1)人类和(2)机器分析功能的结果。然而,输出的数据质量、可信度、可信度和信息价值因子任务是由人还是由机器处理而有所不同。在数据融合步骤中,我们考虑了进入决策过程的人和机器因素。例如,机器中没有专业知识的概念,或者人类会根据他们的认知工作量、专业知识甚至一天中的时间产生不同的结果。对这些因素和其他认知因素进行系统研究,旨在基于贝叶斯和模糊逻辑等成熟的数据融合理论,产生一套数据融合规则/功能,自动减少部分决策过程的输出。


整个系统可以在具有代表性的危机和灾难场景(如社会起义检测、情报报告编写和灾区地图绘制)下,通过利用可用的API和其他工具(如Ushahidi或Amazon Mechanical Turk)来实现。


4.结论/讨论
我们设想,随着战术云的成熟,将启用更多服务和分析功能。一种应用是基于共享态势感知(SA)的自动传感器规划(或传感器管理)。换句话说,传感器可以根据信息需求的最新状态和在线分析预测处理(OLAP)动态分配任务(或重新分配任务)。具体地说,基于云计算的系统方法可以提供可扩展的数据挖掘/分析算法以及用于摄取实时传感器数据(例如,技术的、语义的、非结构化的)以用于共享SA和预测处理的工具和平台,并驱动传感器规划循环。


作者:

Intelligent Automation, Inc. Rockville, MD 20855, USA 

Onur Savas

osavas@i-a-i.com

Yalin Sagduyu, 

ysagduyu@i-a-i.com

Julia Deng,

hdeng@i-a-i.com

Jason Li 

jli@i-a-i.com


原文及机翻译文档已上传小编知识星球

【资料】战术大数据分析:挑战、使用案例和解决方案

【资料】战术大数据分析:挑战、使用案例和解决方案


原文始发于微信公众号(丁爸 情报分析师的工具箱):【资料】战术大数据分析:挑战、使用案例和解决方案

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年8月28日08:44:00
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   【资料】战术大数据分析:挑战、使用案例和解决方案http://cn-sec.com/archives/574546.html

发表评论

匿名网友 填写信息