论文精讲 | 知识图谱质量控制

admin 2023年2月2日15:00:08评论133 views字数 6619阅读22分3秒阅读模式

本次论文研读系列推文来自知识图谱硕士课程课堂展示。其中来自数据科学、管理科学与工程、保密管理等专业13位同学选择了知识图谱相关的前沿论文进行精读。我们将从KG construction,KG representation以及综述三个专题进行成果展示。本期展示主题为综述


摘要:

知识图谱(KG)作为人类知识结构形式的有力表达,引起了学术界和工业界的高度关注,并提出了大量的构建和应用技术。DBpedia,YAGO和Wikidata等大规模知识图谱被发布并广泛用于各种任务然而,它们中的大多数都远非完美,并且存在许多质量问题。例如,它们可能包含不准确或过时的条目,并且没有涵盖足够的事实,这限制了它们的可信度和进一步的效用。数据质量在传统关系数据领域有着悠久的研究历史,最近吸引了更多的知识图谱专家。本文对知识图谱上的质量管理进行了系统、全面的综述,不仅涵盖了质量问题、尺寸和指标,还涵盖了从质量评估和错误检测到纠错和KG完成的质量管理过程的总体研究课题。我们根据目标和所使用的方法对现有作品进行分类,以便更好地理解。最后,我们讨论了知识图谱质量管理的一些关键问题和可能的方向,以供进一步研究。



关键词:数据完整性;测量;资源描述框架;任务分析;知识工程;纠错;质量评估


论文精讲 | 知识图谱质量控制


论文标题:

Knowledge Graph Quality Management: a Comprehensive Survey


会议:

IEEEE2015


论文地址:

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9709663


————————————————————————


01简介


数据质量尚无一个完全统一的定义,通常用“fit for use”或“free of defects”来解释。数据质量的评估维度大致可以分为内部维度和外部维度两种,前者包括准确性、完整性、一致性、时效性、冗余性等问题,反映了数据本身的特性;后者如可获得性、表征性等,往往与具体环境和下游任务相关。数据质量指标为评估不同维度的具体计算方式。质量问题会存在于数据生命周期的各个阶段,质量控制任务也可以在各个阶段进行,主要包括质量评估、问题发现和质量提升三种任务。

论文精讲 | 知识图谱质量控制

图1  数据质量维度与对应指标

知识图谱质量可以视为数据质量的子类,可以迁移部分现有的数据质量控制方法到知识图谱的质量控制中。但由于知识图谱的无模式性、开放世界假设(Open World Assumption)、数据噪声多且规模大等挑战,直接将传统数据质量控制方法套用于知识图谱质量控制可能会存在一些问题。因此,近年来有越来越多的工作研究专门用于知识图谱的质量控制方法。
北京大学王选计算机研究所的学者薛冰聪和邹磊系统地回顾了知识图谱质量控制已有研究成果,研究主题包括知识图谱质量控制的基本概念如KG质量控制的问题、维度和指标,也涵盖了质量控制从评估、问题发现到质量提升的全流程。该文章按照所用技术、目标维度、处理对象三个角度对不同研究提出的方法进行了分类,分为基于人工、统计和学习、规则以及混合方法四种,下面将分别展开介绍。

论文精讲 | 知识图谱质量控制

图2  该综述对知识图谱质量控制主要任务和方法的分类思维导图



02基于人工的方法

人可以参与质量控制流程的任何过程,具有较高的可操作性、准确性和可解释性。但由于知识图谱的规模,人力很难处理所有条目,故现有的研究主要集中于抽样和众包两类方法。
根据质量控制任务的不同,使用的方法有所差异。简单随机抽样方法通常用于知识图谱质量评估任务中,如Junyang Gao等人[i]提出了一个迭代抽样的质量评估指标,并将整个过程置于统计学框架下使其具有理论保证;众包方法则可应用于质量评估、问题检测和图谱补全三类任务中,众包的主体既可以是领域专家,也可以是没有专业背景的众包工人。M. Acosta等人[ii]结合专家和普通工人的众包技术进行知识图谱检错;Jiang等人考虑在预算约束下结合外部知识和众包进行补全和纠错等。
总的来说,基于人工的知识图谱质量控制方法较为直观,可信度较高、可解释性强,但存在成本过高和可扩展性较差的问题。在大规模数据量下需要考虑一些更高效的方案,如通过优化众包任务设计和任务分配技术来最大化地利用人力等。



03基于统计/学习的方法

3.1 传统统计/学习方法
问题发现方法:
1. 基于统计分布的离群点检测和缺失类型预测;
2. 通过人工提取特征,训练机器学习分类器来识别错误链接和不一致三元组;
3. 引入外部资源(语料库、搜索日志等)解决输入数据的错误和数据稀疏性问题,识别错误的三元组;
4. 基于图探索技术识别错误断言和高层次的错误模式。
质量提升方法:
1. 基于统计分布预测和补全知识图谱缺失类型;
2. 引入外部资源预测和补全知识图谱缺失值。
基于传统统计/学习方法的趋势是从统计分布到显式特征提取和有监督机器学习,再到引入外部资源和提出专门针对图的方法,下一个方向是用Embedding技术代替人工特征工程。



3.2 基于Embedding的方法
知识图谱Embedding技术的关键思想是学习将节点和边等元素表示在连续的向量空间中,并保留图谱的结构和属性特征,即图的表示学习。早期的Embedding方法仅仅利用了知识图谱中原有的三元组,为了实现更好的嵌入效果,越来越多的研究引入了额外的资源,如实体类型、文本描述和逻辑规则。而学习模型也越来越复杂,从浅层分布式表示,到多层神经网络。近年来的嵌入表示学习方法,主要有以下三种:
1. 平移距离模型。这类模型将关系视为向量空间中的几何变换,这类模型中最有代表性的是TransE,它可以在大图上进行训练,但在1对N、N对1和N对N的关系上表现不佳,为此学者们提出了许多TransE的变体,如TransH、TransD、TransR等。
2. 张量分解模型。以矩阵或高阶张量的形式表示节点之间的连接,并通过对这些张量进行因子化得到节点嵌入
3. 神经网络模型。图神经网络(GNN)可以通过图Auto Encoder框架解决嵌入问题,利用图的连通性迭代地聚合邻近的节点嵌入。根据不同的提取和聚合功能,有许多不同种类的GNN,包括图卷积网络、图注意网络、图自动编码器和图时空网络。
基于Embedding的方法可用于关系预测、实体分类、三元组分类等任务以解决知识图谱的完整性问题,是进行知识图谱质量控制的一种重要手段。但其存在任务形式受限、对输入数据敏感、可解释性差等问题。在图谱补全之外的质量评估、错误检测和纠正任务等方面还需要更进一步的研究。

论文精讲 | 知识图谱质量控制
图3  基于统计/学习方法的文献总结



04基于规则的方法


规则可以将所有的质量管理过程纳入一个统一的框架,通常包含四个步骤:规则的定义、规则的提取、规则的评估和评价、应用规则进行问题的发现和质量的改进。规则可以直接用于发现和改进知识图谱中的错误数据和不完整性等质量问题,但面临着效率和可扩展性的问题。本文将用于知识图谱质量控制的规则划分为以下四种类型:


4.1 谓词逻辑规则

一阶谓词逻辑规则是早期统计关系学习领域的主要推理方法,Horn rule是一阶谓词逻辑的子集,它是一个形式为B1∧...∧Bn⇒H的公式,其中B1∧...∧Bn是一组显示条件的体原子,H是头原子。AMIE算法(Association Rule Mining under Incomplete Evidence),依次学习和预测每种关系的规则:对于每种关系,从规则体为空的规则开始,通过三种操作扩展规则体部分,保留支持度大于阈值的候选规则。挖掘出来的规则用于预测知识图谱中缺失的关系,即用于改进图谱的完整性。RDF2Rules通过搜索频繁的谓词循环来生成规则,并用置信度评分来评估。RuDiK将规则挖掘过程建模为一个增量图探索问题,它重新考虑了开放世界的假设,并提出了一个负样本生成算法,以便在错误的和不完整的知识库中挖掘规则。

此外,越来越多的研究通过嵌入技术来学习逻辑规则。RLvLR[iii]将规则学习的任务简化为搜索谓词的合理路径,它提出了一种新的抽样方法:从目标谓词开始,通过使用样本图的嵌入来反复扩展路径规则,然后根据一些新的评分函数来评估和修剪。研究表明,RLvLR比AIME+速度更快,能够挖掘出更多高质量的规则。尽管嵌入技术有助于提升逻辑规则学习的效率和准确性,但现有研究大多局限于谓词路径,规则能够做关系预测并以可解释的方式补全缺失的关系,但不能够识别错误和处理字面信息。



4.2 本体规则

本体推理和RDF验证已有很长的研究历史,并且设计了许多约束语言,如RDF查询语言SPARQL和网络本体语言(OWL),这些语言可以作为质量管理的约束规则。Meester等人提出了一个基于规则的RDF验证推理框架,它可以识别违反约束的行为并解释,这有助于发现错误断言以及知识图谱中的错误模式。Paulheim等人将DBpedia本体与基础本体DOLCE-Zero对齐,用于推理图和集群冲突,以识别系统错误。而Pellissier等人用描述逻辑公理作为约束条件,并从知识库的编辑历史记录中学习修复违反约束条件的行为。

查询框架通常使用SPARQL语言作为约束规则。Furber等人提出了一个基于本体的数据质量管理架构,其中定义了SPARQL查询模板来发现数据质量问题,包括语法错误、类型缺失、唯一值违规、值范围过大和功能依赖违规等。



4.3 图模式规则

图的模式经常被包含在规则主体中。遵循关系数据中的依赖关系的研究范式,Fan等人提出了图功能依赖(GFD)提供了明确无模式图的语义的方法,有助于识别和纠正质量问题。 他们还开发了一种发现GFDs的并行可扩展算法,该算法将模式挖掘和功能依赖发现结合在一起,并提供了有效的剪枝策略,显示了在大型图中寻找频繁项和减少的GFDs的可行性和可扩展性,从中提取的图依赖关系能够捕捉到图上的各种语义约束,可以用来检测知识图谱中的错误和不一致。



4.4 其他规则

Tran等人提出了一个基于抽象框架来寻找分割图模块上的本体规则,重点是分割和总结图,并从局部模块中识别不一致的解释。Y. Chen提出了概率知识库ProbKB,使用关系型数据库管理系统,通过基于SQL的推理算法推断出缺失值。Chekol等人使用MLN的数字扩展和一组Datalog约束来检测不确定的时序知识图谱(UTKGs)中的不一致,并进行最大后验推理(MAP)以得到一个可能性最高的、无冲突的时间时序知识图谱。

基于规则的方法可以将质量控制全流程纳入统一的框架下,利用一套统一的规则进行质量评估、检错和纠错。但是需要在规则的表达能力和复杂性之间寻求平衡。另外,尽管基于规则方法可以处理质量控制的各个环节,但现有研究大多只关注了一小部分,目前还没有一个一体化解决方案。


论文精讲 | 知识图谱质量控制

图4  基于规则的方法文献总结




05混合方法


5.1 神经符号结合的知识表示与推理

人工、统计学习和规则方法各有优缺点,因此将不同技术结合起来的混合方法表现出很大的潜力。如Z. Chen等人提出了一个用于实体解析的人机合作框架HUMO,目的是在人和机器之间划分工作量,从而以最小的成本满足给定的质量要求。他们提出了三种基于精度单调性假设、抽样和混合技术的优化方法,这些方法解决了实体冗余的问题;Chengliang Chai等人提出了一种Human-in-the-loop的异常值检测方法,即让人来检查由无监督算法产生的候选异常值。为了以最小的人力成本发现所有的异常值,采用了聚类和问题选择的方法;J. Chen等人结合神经网络和规则方法对知识库进行纠错;S. Hao 等人将人、统计机器学习和规则方法置于一个统一的框架下进行过期事实的检测,实现了一个人在环路的数据标注、模型训练和规则生成的迭代范式,展现了混合策略的优势。


论文精讲 | 知识图谱质量控制

图5  基于混合方法的文献总结




06未来研究方向展望

6.1 讨论

1. 技术方面

2. 基于人工的方法

人可以参与知识图谱质量管理的所有过程,具有很高的精确性和可解释性,但存在效率过低的问题。近来的研究通过引入了抽样方法和众包技术来识别和纠正知识图谱质量问题。但这些研究主要集中在准确度和完整性方面,数据质量的其他维度还有待探索。

3. 统计与学习的方法

从传统的离群值检测和经典的机器学习算法,再到各种基于embedding的技术,基于统计学的方法在知识图谱质量控制领域已经显示出其高效和强大,特别是在错误检测(如离群值检测技术)和图谱补全(如通过嵌入方法进行关系预测)方面。

然而,基于统计学的方法从数据中学习,当数据集有很多质量问题如错误和稀疏性时,这种方法可能表现不佳。因此引入外部资源成为一个热门方向,而这些研究(尤其是基于嵌入的研究)大多主要集中在实体间的关系上,忽略了属性和字面价值的语义依赖。此外,这类方法以可解释性较差且参数选择复杂,因此在模型解释和转移学习方面还需要进一步研究。

4. 基于规则的方法

基于规则的方法已经吸引了很多研究兴趣,学者们提出了将各种形式的规则应用于知识图谱质量控制的技术。大多数关于谓词逻辑规则的研究主要关注高效的规则挖掘算法,多使用统计学方法进行评估;本体规则则显示出更强大的表达能力,涵盖了各种质量维度;基于推理和查询的方法主要通过现有的常识语言或制定查询模板来定义一个综合错误检测框架,且规则通常是由人工输入的,如何将这些本体规则用于其他任务(如图谱补全和错误纠正)还有待探讨;图模式规则将图结构纳入规则主体,能够表达复杂的语义和应对更多的任务,作为专用于图的技术,近年来吸引了越来越多的关注,但其仍处于初始阶段,需要提出更有效的提取、评估和应用算法,并确定一个灵活的通用规则形式。

5. 目标

大多数研究只关注错误检测和图谱补全的任务,而容易忽略其他质量控制过程,如质量评估、错误模式推导和错误纠正。质量评估是量化知识图谱对下游任务的适应性和进一步改进的必要步骤。通过人工抽样和规则进行了一些探索,但细粒度和各维度的问题仍未解决。错误模式推导有助于找出错误的原因,从而从源头上提高知识图谱的质量,基于统计和规则的方法对这项任务有了初步尝试。由于在纠错过程中可能会引入新的错误,所以通常会避免使用纯自动的纠正方法。人可以在这个任务中发挥重要作用,越来越多的规则和混合方法被用于解决这一问题。此外,大多数作品只关注一个或两个目标,很少有研究试图给出一个涵盖所有问题的整体框架,因此建议进一步研究一个灵活统一的整体解决方案。

6. 维度

准确性和完整性引起了最多的关注,离群点检测技术和表达式规则可以识别图中不一致的事实,因此一致性问题正逐步得到解决。但是在冗余性和及时性方面仍有许多未解决的问题。



6.2 展望

1. 整体解决方案。质量控制是一个系统性任务,涉及质量评估、问题发现和质量改进三个渐进的过程,以及各种维度和对象。然而,目前大多数工作只关注部分过程目标和维度,因此,迫切需要一个灵活的、可配置的框架来满足各种任务要求。

2. 多样化的维度。除了准确性和完整性外,需要更关注及时性和冗余度等其他质量维度。

3. 超越关系的目标对象。目前针对关系的研究是最为普遍的,然而,字面属性在知识图谱中也发挥着重要作用。如何通过自动方法来识别和纠正具有丰富语义的字词,是一个很有趣的研究领域。

4. 人的参与。人是知识的最初来源和最终受益者,人力在知识图谱的质量管理中发挥着重要作用。但如何在更多的任务中以更巧妙的方式引入人类的智慧,仍值得思考。

5. 组合策略。不同类型的方法有各自的优劣势,其中混合方法可以使它们相互补充。各种组合策略,特别是将人类、统计和规则放在一起的框架,还有待进一步研究。

6. 外部资源。由于输入的知识图谱数据存在潜在的质量问题,单纯从数据中学习很容易被误导。因此如何结合外部信息和知识来纠正偏差是一个新兴的方向。

7. 效率和可扩展性。尽管已有各种研究来处理大规模知识图谱的质量控制问题,但效率和可扩展性的问题还没有解决,仍然需要对实际可用的算法进行更多的研究,如并行的、增量的或近似的策略。

8. 动态的知识图谱。现有研究主要集中在静态知识图谱上,然而,现实生活中的知识图谱往往随着时间的推移而演变。随着越来越多的时序知识图谱的出现,动态知识图谱的质量控制可能会成为未来的一个研究热点。




THE END


指导老师:洪亮

图文:杨楚嫣

编辑:龙雨荷

原文始发于微信公众号(珞珈大数据):论文精讲 | 知识图谱质量控制

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年2月2日15:00:08
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   论文精讲 | 知识图谱质量控制http://cn-sec.com/archives/1532824.html

发表评论

匿名网友 填写信息