以史为鉴:基于复制-生成网络的时态知识图谱建模

admin 2021年10月28日22:03:22评论237 views字数 1853阅读6分10秒阅读模式

以史为鉴:基于复制-生成网络的时态知识图谱建模

原文作者:Cunchao Zhu, Muhao Chen, Changjun Fan, Guangquan Cheng, Yan Zhang
原文标题:Learning from History: Modeling Temporal Knowledge Graphs with Sequential Copy-Generation Networks
原文链接:https://arxiv.org/pdf/2012.08492
笔记作者:nerd@SecQuan

简介

该文为发表于AAAI 2021的Learning from History: Modeling Temporal Knowledge Graphs with Sequential Copy-Generation Networks。其研究主要在于提出一种复制-生成网络,针对时态知识图谱中缺失的不完整事实进行推断、补全。在中大型知识图谱中,为了更加细致地刻画事实,通常会增加时间维度的信息以描述实体与实体之间的动态关系与交互。此类时态知识图谱通常是不完整的,需要借助一定方法对缺失事实进行推理补充。经观察,作者注意到许多事实沿着时间线重复出现(如外事访问、经济危机等)。因此,在本篇论文中,作者提出一种复制-生成网络,不仅从整个实体空间中对未来时间的事实进行预测,也识别历史中反复出现的事实对预测进行干预,并设计实验最终证明其模型的有效性。

方法

作者为他提出的预测模型命名为CyGNet(Temporal Copy-Generation Network),该模型结合复制和生成两种推理模式,分别在历史实体集合和整体实体集合上进行预测,并整合预测结果,实现更加精准地对未来事实进行预测。本文定义的时态知识图谱是由一组由时间顺序排列的事实四元组(s,p,o,t)组成的,其中s、p、o、t分别表示主体、关系、客体和时间。需要解决的问题是通过已有数据,针对(s,p,?,t)、(?,p,o,t)、(s,?,o,t)等信息缺少情况进行预测。作者只对第一种情况进行实验,并认为其结论可以较为简单的扩展至其他情况中。如下图所示,CyGNet主要分为生成模式和复制模式,通过对两种模式的预测结果进行整合,得到最终结果。

以史为鉴:基于复制-生成网络的时态知识图谱建模

首先,作者针对每个特定时间tk的三元组(s,p,tk),维护一个实体集合H,该实体集合包含所有在时间tk之前,且包含s和p的事实四元组条目中,客体o所代表的实体。得到的这一集合后,再使用multi-hot编码对其进行向量化以备用。

针对复制模式,它旨在识别具有重复性的事实,并通过复制历史中已知的事实来相应地预测未来的事实。网络使用多层感知机(一个全连接层)进行训练,为了减少那些历史中未出现的实体的影响,作者增加了一个环节:将对应的集合H中,将所有为0的分量改为一个小负数,再和经由tanh函数激活得到的N维向量相加,最后交由softmax函数得到所有实体对应的预测概率。作者表示,这一操作使得交由softmax函数的N维向量中,未出现在历史中的候选实体对应分量接近0,体现在最后结果上就是最小化那些不敢兴趣实体(未出现在历史客体集合H中的实体)的概率。具体公式如下图所示:tu表示一个单元时间步长,W和b均为可训练的隐藏参数,公式(4)中的H即为经过修改过的历史客体集合向量。

以史为鉴:基于复制-生成网络的时态知识图谱建模以史为鉴:基于复制-生成网络的时态知识图谱建模

对于生成模式,其训练模型与复制模式相似,区别在于其负责通过从整个实体空间中选择对象实体来预测事实。生成模式所做的预测将预测的事实视为一个全新的事实,没有任何历史参考。最后,通过系数α,综合生成模式和复制模式得到最终预测结果。

以史为鉴:基于复制-生成网络的时态知识图谱建模

实验

实验阶段,作者针对多个数据集将CyGNet与其他相关工作进行横向对比,并设计实验,验证了从历史中学习的复制模式的有效性。其中涉及到的评价指标有MRR和Hits@n。二者均为对搜索算法的常用评价指标,前者表示在预测结果中,预测正确的排名的倒数。例如预测结果中概率最高的候选项为正确结果,则MRR为1,如果概率次高的候选项为正确结果,MRR为0.5。对于后者Hits@n,它表示正确的预测结果出现在概率前n的比例。由下二图可知,CyGnet的性能优于其他相关工作,并且复制模式和生成模式的联合应用能够提高预测的准确率。

以史为鉴:基于复制-生成网络的时态知识图谱建模
以史为鉴:基于复制-生成网络的时态知识图谱建模

最后,作者表示在WIKI数据集上,其方法并未全面优于RE-NET,原因主要来自于主客体实体的数据不平衡。对此,作者也在文中进行了讨论。

安全学术圈招募队友-ing, 有兴趣加入学术圈的请联系secdr#qq.com

以史为鉴:基于复制-生成网络的时态知识图谱建模


本文始发于微信公众号(安全学术圈):以史为鉴:基于复制-生成网络的时态知识图谱建模

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2021年10月28日22:03:22
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   以史为鉴:基于复制-生成网络的时态知识图谱建模https://cn-sec.com/archives/411197.html

发表评论

匿名网友 填写信息