【论文】多源信息融合方法研究

admin 2022年4月2日08:31:58评论346 views字数 6304阅读21分0秒阅读模式

摘要:文章论述了信息融合对情报工作的重要性,把多源信息划分为同质异源信息、异质异构信息以及多语种信息,针对信息的特点,对融合过程中涉及的字段映射、字段拆分、记录滤重、异构加权等问题进行了探讨,提出了一些操作性很强的方法。

关键词:多源信息;信息融合;方法研究

【论文】多源信息融合方法研究

 

从学术研究的角度,情报研究人员在信息序化与情报转化方面已做了很多工作,展示了很多成果,但是对于融合的研究并不充分[1]。情报学是一门自然科学与社会科学相融合的交叉学科,情报人员的专业背景来源于很多学科,情报学的研究主题具有明显的交叉性,情报研究方法也是多学科融合的结果。可以说融合已是情报学的一种泛在现象,但是目前我们对于这个已经泛在的融合研究并不充分。

 

情报监测、热点发现、科技查新、科技评价都是情报工作的重点内容,这些内容需要多种来源信息。情报论文、项目申请书都需要好的研究述评,研究述评需要对论文、专著、项目等信息进行综合分析,在对比分析基础上提出本研究的价值与创新。领域深度分析报告、动态监测快报需要及时关注各方信息,如论文、专利、项目、会议、著作、政策等。行业分析报告、竞争对手分析报告需要行业数据、产品信息、研发动态、市场前景等。

 

所以无论是情报工作还是情报学术研究,无论是宏观层面的报告还是微观层面的报告,都需要在充分搜集多种来源信息的基础上,运用多种方法进行综合分析,只有这样,才能更加全面地了解学科领域进展或行业发展态势,以为科学决策提供更有力的情报支撑。无论是海量信息的环境,还是大数据时代,多源信息融合的问题已成为情报工作中不容忽视的一个环节。

 

1、相关研究述评

信息融合技术是研究如何加工、协同利用多源信息,并使不同形式的信息相互补充,以获得对同一事物或目标的更客观、更本质认识的信息综合处理技术。它比直接从各信息源得到的信息更简洁、更少冗余、更有用途。传统的数据融合是指对多传感器的数据在一定准则下加以自动分析、综合的信息处理过程。

 

1.1信息融合的基础理论与架构

信息融合理论最早应用于军事领域,定义为一个处理探测、互联、估计以及组合多源信息和数据的多层次多方面过程,以便获得准确的状态和身份估计、完整而及时的战场态势和威胁估计[2]。而随着网络海量信息化的进程,信息融合已得到更多领域的关注。

 

朱子华等根据对图书复杂适应系统的研究,分析了综合集成研讨厅图书信息融合系统的功能需求、体系结构层次和技术结构层次,找到了一种保持图书出版、馆藏和读者需求信息链高效运行的新方法,并认为信息的融合主要体现在不同角色之间的信息交互[3]。

 

胡蓓等提出产业集群知识融合的新观点:应用理论研究与实证研究相结合的方法,采用信息融合的DSmT技术,对集群内、外部知识源的知识进行融合,构建基于信息融合的高技术产业集群知识融合与创新模型,通过结构方程模型证实信息融合技术能够提高知识的有效性与全面性[4]。

 

刘明香阐述了知识转化为信息的重要性,将基于D-S证据推理的信息融合技术应用于知识转化为信息的过程中,使人们更准确快捷地获取信息[5]。

 

1.2数据信息融合的层次体系

信息融合是在几个层次上完成对多源信息的处理过程,其中每一层次都表示不同级别的信息抽象;信息融合的结果包括较低层次上的状态和身份估计,以及较高层次上的整个战术态势估计[6]。

 

曹建君把信息融合划分为原始数据融合或像元级融合(PixelBased)、目标级或特征级融合(FeatureBased)以及决策级融合(DecisionLeve1)3个层次[7]。

 

任红娟把从文献内容特征和文献链接信息融合的新知识结构划分方法的研究进行了梳理,从数据库扩展的原始级信息融合、文本挖掘和文献计量方法结合、词汇引用图和词参考文献共现4个层面对当前的知识结构整合方法进行了综述[8]。

 

宋新平等针对竞争情报系统循环的不足以及情报源的特点,构建一个基于信息融合综合集成研讨厅混合的新型竞争情报系统,给出相应的技术框架和体系结构。该系统通过多源信息的融合,提高了情报源的质量,增强了企业战略决策的精度和有效性[9]。

 

1.3信息融合的技术与流程

刘平峰等针对现有Web信息融合对多维度、多粒度综合查询分析和决策支持不足的问题,分析面向主题的Web信息融合的基本原理,设计面向主题的Web信息融合模型,该模型由Web仓库模型、Web信息融合功能模型和人机交互接口三层组成,并探讨各层工作原理和需要实现的关键技术[10]。

 

陈金海针对目前科研成果中信息融合特点,研究了情报信息融合处理方法的多样性,其中主要包括情报信息分类处理过程、科技信息融合处理和情报数据的融合技术处理过程等[11]。

 

廖开际等提出了一种基于网页Anchor-Hop模型,通过DOM树比较和XQuery查询的方式来抽取出行业中相关的情报信息,同时对获取的信息进行融合处理,提供信息检索平台[12]。

 

赵洁提出了一个基于网页实体关系抽取与融合的企业竞争情报获取系统框架,该系统通过对网页内容的抽取与融合,最终形成可信的企业竞争情报数据[13]。

 

文献[14]建立了一个多源信息融合的软件工具模型,并对情报分析的不确定性评价进行了探讨。通过上述分析可以发现,信息融合在传感器领域研究比较多,在图书情报领域的研究并不多。随着网络海量信息化的进展,近几年已有一些学者认识到多源信息融合的重要性,对信息融合的框架体系进行了探讨,但是缺乏对融合的技术细节与实现方案的深入探讨与分析。本文将讨论多源信息融合的具体实现方法与技术细节。

 

2、多源信息的类型分析

多源信息包括以下几种类型:同型异源信息、异质异构信息、多语种信息,如图1所示。

【论文】多源信息融合方法研究

 

2.1同型异源信息

同一种类型的信息可能分布在不同的站点,由不同的数据商提供。不同的信息来源有着不同的收集渠道、加工体系与标准,也有着不同的服务模式。外文期刊数据大都是由期刊所在的出版商独家提供的,而中文期刊论文数据可能分布在清华同方、万方数据、重庆维普这三家数据库商。清华同方和万方数据与很多期刊都签了独家版权协议,所以有很多期刊论文数据只在一家数据库里有,因此使用单一数据源进行分析很难保证全面性,实际分析时往往需要将多种数据集成到一起进行融合分析,例如万方数据与同方数据的融合、SCI与EI数据的融合、PubMed与MedLine数据的融合。

 

2.2异质异构信息

十大文献源是信息检索的主要来源,也是情报工作赖以生存的源泉。一项课题或前沿领域的研究,仅仅使用一种类型的数据是不全面的,如果把期刊论文、学位论文、图书、专利、项目、会议等信息收集起来,融合到一起,进行计量分析、汇总分析、对比分析、关联分析等,这样更能说明某项研究的整体情况,如图2所示。

【论文】多源信息融合方法研究

 

项目信息,可以反映研究的最新动向,甚至能够根据项目信息判断出国家的科技计划与科技发展战略,如自然科学基金项目、国家科技支撑计划项目、“863”项目、“973”项目、国家科技计划重大专项等。会议信息可以反映领域最新前沿与动态研究,反映学科领域最新进展。学位论文信息与期刊论文信息能够较好地反映科学信息,而专利则能很好地反映出技术信息。因此,情报工作中经常涉及不同类型的信息融合的问题,如期刊论文与学位论文的融合、论文信息与专利信息的融合、项目信息与会议信息的融合等,如图2所示。

 

2.3多语种信息

目前,全球经济呈现一体化的趋势,环境问题变成了人类共同关注的问题,无论是科技还是经济,都需要全球的视野,需要广泛关注各语种信息,如中文、英文、日文、法文、德文、俄文、阿拉伯文等多语种信息在很多研究时都需要关注。在调研世界主要发达国家的科技政策时,需要把搜集到的英文、法文、日文等不同语种文献资料翻译成中文,然后进行汇总与对比分析。

 

3、多源信息的融合方法

多源信息的融合主要涉及字段映射、字段拆分、数据记录滤重、异构数据加权4个方面,每个方面都涉及具体的技术细节与处理方法,如图3所示。

【论文】多源信息融合方法研究

 

数据融合一般有这样几个条件:数据具有共性,一般是同一学科或主题的数据。数据具有互补性,不同来源的数据从字段上或记录上具有互补性,以保证分析数据的完整性与覆盖面。

 

3.1异源信息字段的映射

数据字段的融合,包括相同字段相同标识、相同字段不同标识、差异型字段,互补型字段。对于相同字段相同标识的字段可以直接融合。相同字段不同标识的数据需要统一标识,可以使用其中一个来源数据的字段代替,也可以为字段新起一个名字,例如CNKI使用“篇名”,万方数据使用“题名”。差异型字段需要统一,例如,有的数据字段是机构名与地址在一起的,有的数据字段机构名与地址是分开的。互补型字段,即有的数据有此字段,而另一个数据库的数据却没有此字段,如论文资助基金号。

 

3.2数据字段的拆分

数据融合过程中涉及字段的拆分。对于多值同字段要进行拆分,如作者、机构、关键词、分类号等,一篇文章有多个作者、多个关键词、多个分类号等,但这些词的属性是同质的。对于多值异字段也要进行拆分,如清华同方的单位或重庆维普的机构都含有三项内容,分别为作者所在单位、地名、邮编等信息,这些字段是异构的,数据类型、长度与取值范围都有所不同,需要进行拆分。

 

例如,把“武汉大学信息管理学院武汉430072”拆分成“武汉大学信息管理学院”、“武汉”、“430072”,如果只统计到一级单位,还涉及一级单位的提取。重庆维普的刊名也含有很多信息,包括期刊名称、年、卷、期、起止页码等,例如把“2010,29(6):357-362”拆分出年的信息2010,卷的信息29,期的信息6,还有起始页码与终止页码。在进行网络信息采集时,识别URL的构成规则很关键。URL包括访问协议、网络域名、文件目录等,需要根据URL构成规则进行分解,例如把http://www.pku.edu.cn/about/lrxz/lrxz03.jsp#cyp拆分成网络访问协议http,网站域名www.pku.edu.cn,文件路径/about/lrxz/lrxz03.jsp#cyp。只有敏感地识别出URL的片段信息,才可以更好地进行信息采集。

 

3.3数据记录的滤重

数据融合过程中的滤重关键是确定数据记录的主码,确定数据记录的主码的前提是几个字段共同作用能唯一确定一条记录,不同数据源的数据中都有此字段,且字段的表示具有一致性。如果数据记录中有DOI,那么就可以直接使用DOI作为主码。而有些数据并没有DOI,就需要使用多字段组合起来作为主码。一般来讲,对于期刊论文信息,用作者加标题可以唯一地确定一条记录,或者用期刊名+年+期+起始页码,期刊名+年+期+标题都可以唯一地确定一条记录。

 

3.4异构数据的加权

异构数据的加权包括不同类型数据的加权,以及同一类型不同级别数据之间的加权。前者如一篇学位论文与期刊论文如何进行加权,一件发明专利与一篇中文核心期刊论文如何换算。不同的学科又有着不同的权重,在工程技术领域,专利数量较多;而在基础科学领域,专利数据相对较少。不同的年代换算比例也不一样。

 

当然,同一类型不同级别的信息在融合时也存在加权的问题,如一个国家级科研项目与一个省级科研项目如何换算等。这种权重的设置主要有两种方法,一种方法是专家打分法。请几位专家,凭借经验与判断,认为一篇学位论文的影响力与几篇期刊论文的影响力大致相当,不同的专家有不同的经验认知,然后取其统计意义上的平均值,这是常用的方法。

 

另外一种是基于统计实证的方法,例如学位论文与期刊论文的权重换算比例,选取某段时间内某几个学科的博士学位论文,然后查看博士论文前后N年内由博士生发表的期刊论文数量。当然,N年的确定,这本身又是一个统计的问题,可以凭经验,也可以依靠统计。大多数博士在博士论文的前三年里发表的期刊论文与博士学位论文内容是密切相关的。统计每位博士生在学位论文提交日期的前后各三年内与博士论文内容一致的期刊论文,然后对统计样本求平均数,即可获得学位论文与期刊论文的换算关系。当然,不同学科、不同年代的统计值又不一样,统计样本的分布很关键。

 

4、结束语

多源信息在情报工作或情报学术研究中都是必需的,只有使用多源信息才有可能更全面地了解情况,基于多源信息的研究也才更有说服力。总体上来讲,多源信息的融合具有以下特点:

1)多源信息的融合是一项基础工作,特别是在当前的工作环境下,信息量不断增加,获取信息的渠道日益丰富,信息的类型也纷杂多样,多源信息的融合显得越来越重要,随之而来的研究也会逐渐深入。

2)尽管多源信息很难形成一系列的体系方法,无论是从应用角度还是从技术细节角度,很难形成一些专门的理论与方法,这一点与信息分析方法截然不同。

3)对于多源信息融合,不仅方法上难以创新,而且在工具方面,很难形成较为流行的软件系统与工具,这是由于多源信息的不确定性所决定的。因此,针对数据情况编写一些针对性较强的小程序更为有效。

4)如果多源信息融合研究要有所突破,异构信息之间的加权可能是个点,既可能是创新点,当然也可能是难点。本文从技术细节与处理方法等方面对多源信息的融合进行了研究,希望能对情报工作实践有所帮助。当然,对于融合背后的机制与机理尚缺乏认识,会在以后的研究中继续探讨。


参考文献 

[1] 化柏林 . 情报学三动论探析: 序化论、转化论与融合论 [J]. 情报理论与实践,2009,32 ( 11) : 21-24,41.

[2] 唐卫平,颜冰 . 多传感器信息融合技术在网络雷阵中的应 用 [J]. 水雷战与舰船防护,2005 ( 2) : 25-29. 

[3] 朱子华 . 图书信息融合系统的综合集成研讨厅机制研究 [J]. 情报杂志,2007 ( 8) : 88-89. 

[4] 刘明香 . 信息融合技术在知识信息化中的应用 [J]. 情报 杂志,2001 ( 4) : 23. 

[5] 胡蓓,王聪颖 . 基于信息融合的发展中国家高技术产业集 群知识融合与创新模型研究 [J]. 图书情报工作,2009, 53 ( 2) : 38-41,73. 

[6] 陈鹏慧,吴宝明 . 信息融合技术及其在医疗监护系统中的 应用 [J]. 国外医学: 生物医学工程分册,2002 ( 6) . 

[7] 曹建君,李景相,蔡喜琴,等 . 基于信息融合理论的省情信息融合研究 [J]. 遥感技术与应用,2006,21 ( 4) . 

[8] 任红娟,张志强 . 基于文献内容和链接融合的知识结构划 分方法研究进展 [J]. 情报理论与实践,2010,33 ( 4) . 

[9] 宋新平,吴晓伟,刘竞 . 基于信息融合和综合集成研讨厅 混合的企业竞争情报系统 [J]. 图书情报工作,2009,53 ( 22) : 76-79. 

[10] 刘平峰,章佩璐,张军 . 面向主题的 Web 信息融合模型 [J]. 图书情报工作,2011,55 ( 8) : 40-43. 

[11] 陈金海 . 关于情报信息融合处理方法的研究 [J]. 情报杂 志,2003 ( 3) : 63-64. 

[12] 廖开际,张艺 . 基于信息融合的企业竞争情报系统构建 [J]. 情报杂志,2012 ( 10) : 1-5. 

[13] 赵 洁 . 基于关系抽取的企业竞争情报获取与融合框架 [J]. 情报学报,2010,29 ( 2) : 377-384. 

[14] CHOPRA K. Information fusion for intelligence analysis [C] / / Proceedings of the 38th International Conference on System Sciences Hawaii,2005.


文章来源:《情报理论与实践》第36卷2013年第11期

作者简介: 化柏林,男,1977年生,副研究员。

【论文】多源信息融合方法研究

 


原文始发于微信公众号(丁爸 情报分析师的工具箱):【论文】多源信息融合方法研究

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年4月2日08:31:58
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   【论文】多源信息融合方法研究https://cn-sec.com/archives/571137.html

发表评论

匿名网友 填写信息