本次论文研读系列推文来自知识图谱硕士课程课堂展示。其中来自数据科学、管理科学与工程、保密管理等专业13位同学选择了知识图谱相关的前沿论文进行精读。我们将从KG construction,KG representation以及综述三个专题进行成果展示。本期展示主题为综述。
摘要:
知识图谱(KG)作为人类知识结构形式的有力表达,引起了学术界和工业界的高度关注,并提出了大量的构建和应用技术。DBpedia,YAGO和Wikidata等大规模知识图谱被发布并广泛用于各种任务。然而,它们中的大多数都远非完美,并且存在许多质量问题。例如,它们可能包含不准确或过时的条目,并且没有涵盖足够的事实,这限制了它们的可信度和进一步的效用。数据质量在传统关系数据领域有着悠久的研究历史,最近吸引了更多的知识图谱专家。本文对知识图谱上的质量管理进行了系统、全面的综述,不仅涵盖了质量问题、尺寸和指标,还涵盖了从质量评估和错误检测到纠错和KG完成的质量管理过程的总体研究课题。我们根据目标和所使用的方法对现有作品进行分类,以便更好地理解。最后,我们讨论了知识图谱质量管理的一些关键问题和可能的方向,以供进一步研究。
关键词:数据完整性;测量;资源描述框架;任务分析;知识工程;纠错;质量评估
论文标题:
Knowledge Graph Quality Management: a Comprehensive Survey
会议:
IEEEE2015
论文地址:
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9709663
————————————————————————
01简介
规则可以将所有的质量管理过程纳入一个统一的框架,通常包含四个步骤:规则的定义、规则的提取、规则的评估和评价、应用规则进行问题的发现和质量的改进。规则可以直接用于发现和改进知识图谱中的错误数据和不完整性等质量问题,但面临着效率和可扩展性的问题。本文将用于知识图谱质量控制的规则划分为以下四种类型:
4.1 谓词逻辑规则
一阶谓词逻辑规则是早期统计关系学习领域的主要推理方法,Horn rule是一阶谓词逻辑的子集,它是一个形式为B1∧...∧Bn⇒H的公式,其中B1∧...∧Bn是一组显示条件的体原子,H是头原子。AMIE算法(Association Rule Mining under Incomplete Evidence),依次学习和预测每种关系的规则:对于每种关系,从规则体为空的规则开始,通过三种操作扩展规则体部分,保留支持度大于阈值的候选规则。挖掘出来的规则用于预测知识图谱中缺失的关系,即用于改进图谱的完整性。RDF2Rules通过搜索频繁的谓词循环来生成规则,并用置信度评分来评估。RuDiK将规则挖掘过程建模为一个增量图探索问题,它重新考虑了开放世界的假设,并提出了一个负样本生成算法,以便在错误的和不完整的知识库中挖掘规则。
此外,越来越多的研究通过嵌入技术来学习逻辑规则。RLvLR[iii]将规则学习的任务简化为搜索谓词的合理路径,它提出了一种新的抽样方法:从目标谓词开始,通过使用样本图的嵌入来反复扩展路径规则,然后根据一些新的评分函数来评估和修剪。研究表明,RLvLR比AIME+速度更快,能够挖掘出更多高质量的规则。尽管嵌入技术有助于提升逻辑规则学习的效率和准确性,但现有研究大多局限于谓词路径,规则能够做关系预测并以可解释的方式补全缺失的关系,但不能够识别错误和处理字面信息。
4.2 本体规则
本体推理和RDF验证已有很长的研究历史,并且设计了许多约束语言,如RDF查询语言SPARQL和网络本体语言(OWL),这些语言可以作为质量管理的约束规则。Meester等人提出了一个基于规则的RDF验证推理框架,它可以识别违反约束的行为并解释,这有助于发现错误断言以及知识图谱中的错误模式。Paulheim等人将DBpedia本体与基础本体DOLCE-Zero对齐,用于推理图和集群冲突,以识别系统错误。而Pellissier等人采用描述逻辑公理作为约束条件,并从知识库的编辑历史记录中学习修复违反约束条件的行为。
查询框架通常使用SPARQL语言作为约束规则。Furber等人提出了一个基于本体的数据质量管理架构,其中定义了SPARQL查询模板来发现数据质量问题,包括语法错误、类型缺失、唯一值违规、值范围过大和功能依赖违规等。
4.3 图模式规则
图的模式经常被包含在规则主体中。遵循关系数据中的依赖关系的研究范式,Fan等人提出了图功能依赖(GFD),提供了明确无模式图的语义的方法,有助于识别和纠正质量问题。 他们还开发了一种发现GFDs的并行可扩展算法,该算法将模式挖掘和功能依赖发现结合在一起,并提供了有效的剪枝策略,显示了在大型图中寻找频繁项和减少的GFDs的可行性和可扩展性,从中提取的图依赖关系能够捕捉到图上的各种语义约束,可以用来检测知识图谱中的错误和不一致。
4.4 其他规则
Tran等人提出了一个基于抽象框架来寻找分割图模块上的本体规则,重点是分割和总结图,并从局部模块中识别不一致的解释。Y. Chen提出了概率知识库ProbKB,使用关系型数据库管理系统,通过基于SQL的推理算法推断出缺失值。Chekol等人使用MLN的数字扩展和一组Datalog约束来检测不确定的时序知识图谱(UTKGs)中的不一致,并进行最大后验推理(MAP)以得到一个可能性最高的、无冲突的时间时序知识图谱。
基于规则的方法可以将质量控制全流程纳入统一的框架下,利用一套统一的规则进行质量评估、检错和纠错。但是需要在规则的表达能力和复杂性之间寻求平衡。另外,尽管基于规则方法可以处理质量控制的各个环节,但现有研究大多只关注了一小部分,目前还没有一个一体化解决方案。
05混合方法
5.1 神经符号结合的知识表示与推理
人工、统计学习和规则方法各有优缺点,因此将不同技术结合起来的混合方法表现出很大的潜力。如Z. Chen等人提出了一个用于实体解析的人机合作框架HUMO,目的是在人和机器之间划分工作量,从而以最小的成本满足给定的质量要求。他们提出了三种基于精度单调性假设、抽样和混合技术的优化方法,这些方法解决了实体冗余的问题;Chengliang Chai等人提出了一种Human-in-the-loop的异常值检测方法,即让人来检查由无监督算法产生的候选异常值。为了以最小的人力成本发现所有的异常值,采用了聚类和问题选择的方法;J. Chen等人结合神经网络和规则方法对知识库进行纠错;S. Hao 等人将人、统计机器学习和规则方法置于一个统一的框架下进行过期事实的检测,实现了一个人在环路的数据标注、模型训练和规则生成的迭代范式,展现了混合策略的优势。
06未来研究方向展望
6.1 讨论
1. 技术方面
2. 基于人工的方法
人可以参与知识图谱质量管理的所有过程,具有很高的精确性和可解释性,但存在效率过低的问题。近来的研究通过引入了抽样方法和众包技术来识别和纠正知识图谱质量问题。但这些研究主要集中在准确度和完整性方面,数据质量的其他维度还有待探索。
3. 统计与学习的方法
从传统的离群值检测和经典的机器学习算法,再到各种基于embedding的技术,基于统计学的方法在知识图谱质量控制领域已经显示出其高效和强大,特别是在错误检测(如离群值检测技术)和图谱补全(如通过嵌入方法进行关系预测)方面。
然而,基于统计学的方法从数据中学习,当数据集有很多质量问题如错误和稀疏性时,这种方法可能表现不佳。因此引入外部资源成为一个热门方向,而这些研究(尤其是基于嵌入的研究)大多主要集中在实体间的关系上,忽略了属性和字面价值的语义依赖。此外,这类方法以可解释性较差且参数选择复杂,因此在模型解释和转移学习方面还需要进一步研究。
4. 基于规则的方法
基于规则的方法已经吸引了很多研究兴趣,学者们提出了将各种形式的规则应用于知识图谱质量控制的技术。大多数关于谓词逻辑规则的研究主要关注高效的规则挖掘算法,多使用统计学方法进行评估;本体规则则显示出更强大的表达能力,涵盖了各种质量维度;基于推理和查询的方法主要通过现有的常识语言或制定查询模板来定义一个综合错误检测框架,且规则通常是由人工输入的,如何将这些本体规则用于其他任务(如图谱补全和错误纠正)还有待探讨;图模式规则将图结构纳入规则主体,能够表达复杂的语义和应对更多的任务,作为专用于图的技术,近年来吸引了越来越多的关注,但其仍处于初始阶段,需要提出更有效的提取、评估和应用算法,并确定一个灵活的通用规则形式。
5. 目标
大多数研究只关注错误检测和图谱补全的任务,而容易忽略其他质量控制过程,如质量评估、错误模式推导和错误纠正。质量评估是量化知识图谱对下游任务的适应性和进一步改进的必要步骤。通过人工抽样和规则进行了一些探索,但细粒度和各维度的问题仍未解决。错误模式推导有助于找出错误的原因,从而从源头上提高知识图谱的质量,基于统计和规则的方法对这项任务有了初步尝试。由于在纠错过程中可能会引入新的错误,所以通常会避免使用纯自动的纠正方法。人可以在这个任务中发挥重要作用,越来越多的规则和混合方法被用于解决这一问题。此外,大多数作品只关注一个或两个目标,很少有研究试图给出一个涵盖所有问题的整体框架,因此建议进一步研究一个灵活统一的整体解决方案。
6. 维度
准确性和完整性引起了最多的关注,离群点检测技术和表达式规则可以识别图中不一致的事实,因此一致性问题正逐步得到解决。但是在冗余性和及时性方面仍有许多未解决的问题。
6.2 展望
1. 整体解决方案。质量控制是一个系统性任务,涉及质量评估、问题发现和质量改进三个渐进的过程,以及各种维度和对象。然而,目前大多数工作只关注部分过程目标和维度,因此,迫切需要一个灵活的、可配置的框架来满足各种任务要求。
2. 多样化的维度。除了准确性和完整性外,需要更关注及时性和冗余度等其他质量维度。
3. 超越关系的目标对象。目前针对关系的研究是最为普遍的,然而,字面属性在知识图谱中也发挥着重要作用。如何通过自动方法来识别和纠正具有丰富语义的字词,是一个很有趣的研究领域。
4. 人的参与。人是知识的最初来源和最终受益者,人力在知识图谱的质量管理中发挥着重要作用。但如何在更多的任务中以更巧妙的方式引入人类的智慧,仍值得思考。
5. 组合策略。不同类型的方法有各自的优劣势,其中混合方法可以使它们相互补充。各种组合策略,特别是将人类、统计和规则放在一起的框架,还有待进一步研究。
6. 外部资源。由于输入的知识图谱数据存在潜在的质量问题,单纯从数据中学习很容易被误导。因此如何结合外部信息和知识来纠正偏差是一个新兴的方向。
7. 效率和可扩展性。尽管已有各种研究来处理大规模知识图谱的质量控制问题,但效率和可扩展性的问题还没有解决,仍然需要对实际可用的算法进行更多的研究,如并行的、增量的或近似的策略。
8. 动态的知识图谱。现有研究主要集中在静态知识图谱上,然而,现实生活中的知识图谱往往随着时间的推移而演变。随着越来越多的时序知识图谱的出现,动态知识图谱的质量控制可能会成为未来的一个研究热点。
—
THE END
指导老师:洪亮
图文:杨楚嫣
编辑:龙雨荷
原文始发于微信公众号(珞珈大数据):论文精讲 | 知识图谱质量控制
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论