本次论文研读系列推文来自知识图谱硕士课程课堂展示。其中来自数据科学、管理科学与工程、保密管理等专业13位同学选择了知识图谱相关的前沿论文进行精读。我们将从KG construction,KG representation以及综述三个专题进行成果展示。本期展示主题为综述。
摘要:
近年来,国内外在新一代知识图谱的关键技术和理论方面取得了一定进展,以知识图谱为载体的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手等。然而,在大数据环境和新基建背景下,数据对象和交互方式的日益丰富和变化,对新一代知识图谱在基础理论、体系架构、关键技术等方面提出新的需求,带来新的挑战。将综述国内外新一代知识图谱的关键技术研究发展现状,重点从非结构化多模态数据组织与理解、大规模动态图谱表示学习与预训练模型、神经符号结合的知识更新与推理3方面对国内外研究的最新进展进行归纳、比较和分析。最后,就未来的技术挑战和研究方向进行展望。
关键词:知识图谱;多模态数据;表示学习;预训练模型;认知智能;神经符号系统
论文标题:
Survey on Key Technologies of New Generation Knowledge Graph
论文地址:
新一代知识图谱关键技术综述-王萌|王昊奋|李博涵|赵翔|王鑫-计算机研究与发展2022年第9期-CCF数字图书馆
———————————————————————————————
01背景
ACM图灵奖获得者Yoshua Bengio在NeuIPS2019的特邀报告中明确提到,深度学习需要从系统1到系统2转化。这里所说的系统1和系统2来源于认知科学中的双通道理论,其中系统1可以理解为神经系统,它表示直觉的、快速的、无意识的系统;系统2可以理解为符号系统,它表示慢的、有逻辑的、有序的、可推理的系统。Bengio所提的系统2关于深度学习的想法与“神经+符号”的知识表示与推理目标基本一致。神经系统优势在于能够轻松处理图像识别、文本分类等一类机器学习擅长的问题,模型能够允许数据噪音的存在,但缺点在于其端到端的过程缺乏可解释性,并且在模型求解答案过程中难以嵌入已有的人类知识。相反地,符号系统可以完美地定义各类专家经验规则和知识,形成对结构化数据的各类原子操作,在此基础上通过搜索和约束进行求解,整个过程的解释性和可理解性也很强。但是,符号系统的缺点在于难以处理很多拥有异常数据和噪音的场景。然而,“神经+符号”到底如何有机结合,实现起来并不容易.知识图谱从早期的知识库、专家系统,到谷歌2012年正式提出知识图谱,其发展历程也体现了神经系统和符号系统的各自发展缩影,整体上可分为神经助力符号和符号助力神经两大类。
4.1 神经助力符号推理
神经助力符号推理方法的特点在于将神经的方法应用在传统符号系统的问题求解,通常主要是解决浅层的推理问题,其核心在于如何将神经系统学到的“浅层知识表示”(计算结构和连续型数值表示的知识)更新到已有的符号知识体系中(离散的、显式的符号化知识)。敏捷逻辑是牛津大学Gottlob等人关于“神经+符号”的尝试,如图5所示,该系统既能够执行复杂的推理任务(以Datalog± 语言为理论基础),同时在可接受的计算复杂度下,利用神经网络在大数据上实现高效和可扩展的推理。此外,敏捷逻辑还定义了与企业数据库、网络、机器学习和分析软件包的接口,以实现与数据库和人工智能中不断出现的新技术相结合。敏捷逻辑的特点是不局限于模型层面的结合,更关注从知识图谱管理系统框架层面来使用神经和符号多种技术。
Markov逻辑网络是由一阶逻辑公式及其对应的权值组成的二元组集合,其基本思想是利用统计关系学习模型将Markov网络与一阶逻辑相结合,进而实现对传统一阶逻辑限制的放松,在自然语言处理、复杂网络、信息抽取等领域都有重要的应用。此类方法的缺点在于模型往往受限于Markov逻辑推理的效率瓶颈,采用相对简单的逻辑推理机制又易陷入推理困境。
知识图谱表示学习技术也是一种典型的神经助力符号推理的研究,其特点是采用神经系统训练的思想,设计知识图谱实体和关系在隐空间下的距离度量函数,用统计推理代替逻辑演绎,最终应用于知识补全或其他下游任务中。最具代表性的工作是翻译模型TransE和基于矩阵分解的RESCAL模型。在这2种方法的启发下诞生了很多变种,其本质区别是分别从知识图谱特征上有更多考虑,如时空知识图谱嵌入,或从表示空间上进行拓展迁移,如使用奇异值分解模型生成的复数值嵌入ComplEx,ConvE等。受知识图谱表示学习的启发和图神经网络技术的发展,华盛顿大学Chen等人则尝试直接使用图神经网络等深度学习技术进行知识表示学习。
牛津大学和伦敦大学学院的研究团队提出神经理论证明机其设计了一个端到端的微分定理证明神经网络,其中的运算基于知识图谱的稠密实值向量表示,通过运算稠密向量表示来实现对知识图谱上查询的端到端可微证明.在该过程中,神经网络是受Prolog中的反向链算法启发递归构造而成,同时用径向基函数核符号向量表示的可微计算来代替传统的符号统一表示,从而将符号推理与学习次符号向量表示相结合。
斯坦福大学的自然语言处理团队提出神经张量网络,相比前人在知识图谱里使用实体去预测关系,其引入了一个损失函数为双线性的3层神经网络模型,并且对于实体向量初始化的处理采用非监督模型训练得到的词向量的平均值,进而大大提高了系统准确率。
清华大学自然语言处理实验室在知识图谱表示学习领域发布了OpenKE平台,整合了 TransE,TransH,TransR,TransD,RESCAL,DistMult,HolE,ComplEx等算法,提供了统一接口方便研究人员进行高效复现或直接调用,同时,在WikiData和 Freebase两个数据集上提供了预训练知识表示。该项目旨在为开发者和研究人员提供便利,在系统工具方面是一项重要的贡献。
东南大学的Wang等人从知识图谱的应用出发,在知识图谱嵌入空间求解复杂问题方向提出了一系列方法,首先针对知识图谱复杂查询面临的空集问题,充分利用知识图谱嵌入空间对于数据不完整性的弥补以及链接预测机制,设计了一种全身的知识图谱近似查询方法。
南京大学的Hu等人和清华大学的Li等人在传统的知识图谱实体对齐任务上,引入知识图谱表示学习技术,提出了一系列基于知识图谱嵌入的实体对齐模型,并充分考虑了路径等特征对于实体对齐模型的影响。
中山大学的Wan等人和广东外语外贸大学的Du等人针对知识图谱表示学习的更新问题,以及无法有效利用逻辑公理进行推理的缺陷,提出了一种效率较高的增量更新方法,可以在不重新进行机器学习训练的情况下对知识图谱实体和关系向量进行更新,同时分析了各种现有的基于翻译机制的表示学习模型对不同类型的逻辑公式的支持情况,并有效嵌入逻辑规则提升嵌入质量。
值得一提的是,异质信息网络近年来和知识图谱一样在社交网络挖掘领域也逐渐被提及,国内清华大学的Cui等人在异质信息网络的表示学习方面从节点重要性、社团、网络距离等方面都进行了向量空间中的探索研究,同时考虑了超图等复杂的结构和嵌入的动态更新,为知识图谱领域的嵌入提供了一定的借鉴思路。北京邮电大学的Shi等人则立足于知识图谱和社交网络的研究交叉点,重点探索了基于图神经网络和异质信息网络表示学习技术在文本分析、知识图谱问答、推荐系统层面的作用。
4.2 符号助力神经计算
符号助力神经方法的特点在于将符号的方法应用在神经网络的训练过程中。国外代表性的工作有:
日本索尼公司联合英国和意大利的学者共同提出的逻辑张量网络,通过改进神经的方法,引入称为多值和端到端的可微分一阶逻辑作为表示语言来支持深度学习和推理。逻辑张量网络为多种任务(例如数据聚类、多标签分类、关系学习、查询应答、半监督学习、回归和嵌入学习)提供了统一的语言。
卡内基梅隆大学团队使用逻辑规则在深度神经网络中进行数据的编审,其核心是将一阶逻辑规则所代表的认知和结构化知识通过后验正则项建模成一个指导网络,然后用知识蒸馏的方式将指导网络中的知识传授给另一个学习者神经网络的权重中,实现在测试阶段一些新样本的预测。
斯坦福大学的研究团队提出的远程监督模型,衍生出了一系列研究工作。远程监督针对知识图谱构建过程中的核心任务关系抽取,假设知识图谱中存在一个三元组〈实体1,关系,实体2〉,那么给定非结构化的文本中任何包含实体1和实体2的句子在一定程度上都反映了该三元组中的关系。基于这个假设,远程监督算法可以利用知识图谱中已有三元组和对应的关系来启发式地标注句子。
在计算机视觉和自然语言处理领域的少样本、零样本模型和场景中,知识图谱等符号知识也被用来增强训练数据,从而扩充监督信息,实现用充足数据和可靠的经验知识将神经系统学习得到的模型误差最小化。
哈尔滨工业大学团队近年来致力于符号助力的自然语言处理研究,在传统的自然语言处理的实体识别及其类别获取、关系抽取、文本情感分析、生物医学文献挖掘、因果推断、知识推理、事理图谱构建等方面都有一定的进展。
中国科学院自动化研究所模式识别国家重点实验室团队充分利用符号形式的知识,在自然语言处理方面,其最新致力于探索神经网络的可解释性研究;在事件图谱构建方面,其最新致力于面向垂直领域的复杂场景事件知识抽取和事件图谱构建。
复旦大学团队近年来提出的符号接地工作,旨在为大规模知识图谱实现符号接地,实现基于大规模知识图谱的跨模态语义增强。其核心思想是以符号知识为核心的认知智能与以模式识别为核心的感知智能相结合,在大规模符号接地技术的推动下,使机器学习与符号知识充分融合与协同计算,进而赋予符号化的知识体系与形式化系统以“体验”与“意义”,进一步提升机器的认知水平。
4.3 神经符号结合的知识表示与推理
一个完美的“神经+符号”系统的特点和优势为:1. 能够轻松处理目前主流机器学习擅长的问题;2. 对于数据噪音有较强的鲁棒性;3. 系统求解过程和结果可以被人容易地进行理解、解释和评价;4. 可以很好地进行各类符号的操作;5. 可以无缝地利用各种背景知识。从以上标准来看,实现神经符号知识表示的充分结合还有很长一段路要走。国外目前最具代表性的研究为Cohen等人和Lamb等人的研究工作。
Cohen作为人工智能领域的重要学者,近年来发表了一系列的神经符号结合的研究工作,其中典型工作DrKIT的整体框架如图6所示。DrKIT使用语料库作为虚拟的知识图谱,进而实现复杂多跳问题求解。DrKIT采用传统知识图谱上的搜索策略进行文本数据的遍历,主要是遵循语料库中包含文本提及实体之间的关系路径。在每个步骤中,DrKIT使用稀疏矩阵TF/IDF索引和最大内积搜索,并且整个模块是可微的,所以整个系统可使用基于梯度的方法从自然语言输入到输出答案进行训练。DrKIT非常高效,每秒比现有的多跳问答系统快10~100倍,同时保持了很高的精度。
Lamb等人从事神经符号结合的人工智能研究已经很多年,其最新的研究致力于探索图神经网络技术在神经符号集合的智能计算过程中扮演的关键作用。值得一提的是,由其发起的神经符号国际研讨会已经召开了15届,近些年逐渐受到越来越多的关注。
清华大学的 Ding等人所做的工作CogQA提出了基于人类认知模式的认知图谱来解决阅读理解上的多跳问答,属于神经符号结合较为均衡的工作,整体框架如图7所示。其核心思想是“知识图谱+认知推理+逻辑表达”,目的是在系统1中做知识的扩展,在系统2中做逻辑推理和决策(采用图神经网络和符号知识结合的方法),进而实现用符号知识的表示、推理和决策(系统2)来解决深度学习求解过程(系统1)的黑盒问题。值得一提的是要真正实现对系统1所有场景的知识和推理,需要万亿级的知识图谱支持。
浙江大学的 Zhang等人在知识图谱表示学习和规则挖掘方面的结合近年来进行了一系列探索,核心思想是将表示学习和规则挖掘结合在一起,互相弥补各自的瓶颈,既能够通过知识图谱规则挖掘的方法提取一组可代表知识图谱语义信息的Horn逻辑规则,又通过基于规则的物化推理方法将相应的隐藏语义信息注入到知识图谱表示学习模型中提升嵌入效果,反之,更新后的知识图谱嵌入集合有效的生成策略可以生成候选规则。
吉林大学的Cui等人提出一个通用的关注成本的图生成框架,把贝叶斯优化的优势带给图生成任务来解决此问题,该方法在分子发现和神经架构搜索2个具有挑战任务中能够找到次优甚至最优解,同时比当前最新的深度图生成技术降低了30%~95%的评估代价。
05研究进展比较
5.1 神经符号结合的知识表示与推理
在非结构化多模态数据组织方面,多模态知识图谱目前已经成为国内外学者对于多种类型数据组织的共识,国内外的学者均有新的研究成果。对于国外研究团队而言,其核心思路依然是从维基百科中抽取已有知识图谱的多模态数据资源,而国内研究团队将范围扩展到了通过全域的数据资源来补充已有知识图谱中的视觉和文本信息。可以看出,对于知识图谱而言,开放域的非结构化数据资源丰富,但是如何同已有结构化的图谱融合并建立不同模态数据之间的语义关联是关键。此外,国内研究团队面向垂直领域(智慧教育)提出了系统级的研究工作,这一点要比国外的研究更具有落地思维,可以预见未来国内在更多垂域会出现以多模态知识图谱为基础的系统和应用。在多模态数据理解方面,受益于深度学习技术的持续发展,国内外在该领域都取得了最新的研究成果。可以看出,国内研究人员已经可以从延续他人工作转变为开辟新的研究领域,这一点说明国内在该领域走在世界学术前沿。值得一提的是,国内学者在知识图谱驱动的多模态数据理解方面同样具有较强的应用落地思维,分别面向推荐系统等垂直场景进行了探索尝试。
5.2 大规模动态知识图谱表示学习与预训练
在大规模动态表示学习方面,国内外均有新的研究成果,在不同的方向有所突破。国外在序列模型编码方法上有更多模型被提出,对GCN,GNN等类型的编码器进行了改进,在动态表示方面取得了更好的结果;而国内主要的工作集中在基于分解、基于历时性编码和基于随机游走改进3个方面,虽然与国外的方法思路不同,但是在动态表示方面也有亮点和突出表现。知识图谱预训练是近两年的一个热点方向,国内外很多研究机构都针对此方面有所研究并做出了突破。国外在图谱表示的预训练方面有一些新的工作,并在基于知识图谱图结构的预训练方面有更多的进展。而国内,基于自然语言方面的知识预训练有更多的新模型产生,诸如北京大学、清华大学等学校,百度等企业均在这方面有新的研究成果产生。尤其是面向基于大规模知识下游任务的预训练模型,有了重大突破,对数以10亿计规模的知识进行了预训练,并应用于阿里电商平台,为商品推荐、语义搜索和智能问答等下游任务提供支持。
5.3 神经符号结合的知识表示与推理
在神经助力符号方面,国内外均有新的研究成果。通过比较可以看出,国外研究团队在知识图谱表示学习技术的初期走在该领域的前沿,提出了一系列开创性的工作;国内的研究团队主要针对各类模型和数据特点进行改进,在后期逐渐提出了创新性更高和实用性更强的工作,尤其是知识图谱表示学习技术在其他任务(如智能问答、近似搜索、推荐系统、实体对齐、社交网络等)中有效地使用,国内研究团队走在学术的前沿,可以看出国内学者更倾向于应用层级的研究。除此之外,在逻辑推理等偏理论的模型中如何引入神经网络,国内研究工作还不多。在符号助力神经方面,国内外都走在学术的前沿。在神经符号结合方面,谷歌公司依然走在世界的最前沿,提出了一系列开创性工作,国内这方面的工作还偏少。不过整个神经符号的有机结合还属于初期探索领域,随着越多的研究者开始关注,未来我国研究团队还有很大的提升空间。
06未来研究方向展望
知识图谱对于大数据智能具有重要意义,在自然语言处理、信息检索、智能推荐和智能问答等领域中发挥重要作用。
现如今,各大高校、科研机构和商业互联网络公司都已经意识到知识图谱的重要战略意义,纷纷投入精力加速对知识图谱的研究与应用。同时,知识图谱虽然已历经10余年的发展,但是依然处在发展的初级阶段,部分知识图谱投入使用但是应用场景仅仅局限在商品推荐、智能搜索和医疗健康等领域,更多的领域知识图谱还处在构建完善阶段,远远没有达到投入前沿应用并发挥显著作用的地步。
在未来的一段时间内,知识图谱的构建、储存、表示和推理等依然是知识图谱领域内的研究热点,与此同时适用于特殊场景、更多下游任务的特殊知识图谱,诸如动态知识图谱、时序知识图谱、空间知识图谱、事理图谱、认知图谱和多模态图谱等均是研究者们关注的重点,同时许多问题也需要学术界和工业界共同协力解决。在此,我们对未来新一代知识图谱关键技术研究发展趋势进行展望。
6.1 非结构化多模态数据组织与理解
知识不是简单的数据,亦不是普通的信息,知识反映了客观世界中事物之间的关系,不同事物或者相同事物之间的不同关系形成了不同的知识。而在互联网上,人们往往最先接触到的是各种信息或各种数据,而知识往往就存在于这些信息和数据中,人们可以通过对信息和数据的初步提炼和分析获得自己需要的知识。对于计算机而言同样如此,如何从互联网上各种格式的信息和大数据中提炼出其需要的知识,是知识图谱的重要问题。目前,已经存在很多优秀的算法可以从文本、图像等格式的数据中抽取知识,部分优秀的算法也能达到比较优异的准确率。但是往往这些表现优异的算法,更多的是针对格式化的数据,并且对于知识的领域有所限制。然而,随着需求的不断提高,从非结构化多模态的数据中提取特定领域的知识就愈发重要。因此,在未来针对非结构化知识获取、多模态知识获取、长文本处理、多方式协同获取、特定领域知识获取、环境自适应增量获取等方向的研究将成为研究者们进一步深入研究的重点。
6.2 大规模动态图谱表示学习与预训练
知识图谱主要以三元组的方式进行储存,这种方法可以较好地表示更多事实性知识。然而,知识丰富多样,面对很多特殊环境,简单的三元组就已经束手无策,诸如时序知识、事件知识和模糊知识等。针对简单的知识图谱三元组、时序知识图谱和事件知识图谱等,研究者们已经研究出很多相关的表示模型用以对这些知识进行表示。但是,现有的研究还远远没有满足人们的需求,知识表示是知识图谱构建和后续研究的基础,而且针对不同类型的知识图谱也需要特定的知识表示方式。因此,针对特殊的知识图谱,诸如时序、空间、事理、认知图谱等均需要独特的知识表示方法,这些相比简单的三元组知识而言的复杂知识所需的特殊知识表示方法将是未来几年知识表示方向的重要研究趋势。此外,近几年,研究者们对知识表示的可解释性越发地重视,不能简简单单地将知识表示为嵌入向量,而是需要对表示的可解释性进行展示。因此,未来几年,知识表示可解释性方面的研究依然会是热点。
6.3 神经符号结合的知识更新与推理
神经符号结合的知识更新与推理的核心在于神经方法和符号方法如何有效结合,围绕此过程,未来该领域的研究方向首先是神经符号2种知识的翻译问题,这种神经符号知识的翻译研究将主要包括知识图谱预训练结果与知识图谱实例的映射,以及融合神经和符号的知识图谱实例多重语义表达。其次,在神经符号完美融合较为困难的理论背景下,2类方法的合理组合方式可能会是研究人员更为实际的探索方向,主要包括“神经+符号”的联合表征学习,融合预训练、知识图谱、记忆机制的神经符号组合框架设计,面向不同垂域任务应用的神经符号知识互补范式,以及脑认知启发下的神经符号结合4个方面。最后,在知识推理层级,主要可能的研究方向包括融合神经与符号知识的推理任务重定义、将符号知识高效编码并且以低损方式嵌入到神经网络、设计包含符号知识的可微推理规则、本体(概念层次、公理规则)表示学习以及神经符号推理引擎4个方面。
07总结
本文围绕支撑新一代知识图谱的关键技术研究进展与趋势展开系统性论述,内容包括:非结构化多模态图谱组织与理解、大规模动态图谱表示学习与预训练模型、神经符合结合的知识表示与推理。在此基础上,给出了国内与国际的当前研究进展,并对国内外研究进展进行比较。最后对这些关键技术的发展趋势进行了展望。
—
THE END
指导老师:洪亮
图文:高欣宜
编辑:龙雨荷
原文始发于微信公众号(珞珈大数据):论文精讲 | 新一代知识图谱关键技术综述
- 我的微信
- 微信扫一扫
-
- 我的微信公众号
- 微信扫一扫
-
评论