【略读论文|时序知识图谱补全】Logic and Commonsense-Guided Temporal Knowledge Graph Completion

发布时间 2023-11-20 12:28:50作者: 尘世铅华

会议:AAAI,时间:2023,学校:北京航空航天大学

文中谓词可以视为关系。

以往的TKG补全(TKGC)方法不能同时表示事件的时效性和因果关系。为了应对这些问题,作者提出了一个逻辑和尝试引导嵌入模型(LCGE ),从常识的角度共同学习涉及事件的及时性和因果关系的时间敏感表示,以及事件的时间无关表示。具体来说,作者设计了一种时间规则学习算法来构建规则引导的谓词嵌入正则化策略来学习事件之间的因果关系。此外,还可以通过辅助常识知识准确地评估事件的合理性。

现有时序知识图谱补全的表示,印证现有的TKGC模型不能联合表示事件的及时性和事件之间的因果关系

本文重点研究的TKG嵌入(TKGE)(TKG Embedding)模型通过对实体和谓词的嵌入以及时间戳进行评分来评估事件的合理性。TKGE 模型考虑了不同时间发生的事件是完全独立的,这些方法预测已知时间的事件。可TKGE仍然无法利用事件之间的因果关系。且之前所有的模型的可解释性均很弱,而且不能从TKG中自动的挖掘时间规则。

模型逻辑:

时间规则引导的谓词嵌入正则化来学习事件的因果关系。提出了一种基于联合事件和常识的 KG 嵌入策略,通过学习涉及及时性和因果关系的时间敏感表示以及常识视图中与时间无关的表示来对每个事件进行评分。

主要贡献:

1.将时间规则引入TKGE模型2.从时间敏感表示和常识方向对每个事件建模,提高准确性。3.实验数据显示我们的模型效果很好,且具有可解释性。

第二部分是相关工作(背景知识)的介绍,无需过多赘述

第三部分是模型的介绍

LCGE模型的整体架构如上图所示,常识表示为两个实体概念嵌入和谓词嵌入之间的交互。此图中显示的两个事件的主语概念嵌入应该彼此接近,因为它们与同一个谓词相关联。在时间规则引导的谓词嵌入正则化模块中,T 表示将在本节中描述的时间转换算子。

在该文中,时序知识图谱的基础构成是(s,p,o,t),其中s与o是主语和宾语,p表示谓词,t表示时间戳或时间间隔。特别是,时间间隔 [ts, te] 的事件可以转化为两个时间戳为 (s, p, o, ts) 和 (s, p, o, te) 的事件。

在本文的工作中,主要以以下形式表示时间规则:${p_{n+1}\left( x,y,t \right) \Longleftarrow p_1\left( x,z_1,t_1 \right) \land \cdots \land p_n\left( z_{n-1},y,t_n \right)}$

其中pi是谓词,x,y和zj表示实体变量,t 和 tl(l = 1, · · · , n) 表示满足约束(t1 ≤ t2 ≤ · · ≤ tn ≤ t) 的时间变量。

开发一种新的静态到动态策略来挖掘具有各种模式的时间规则

在静态规则学习阶段,我们首先通过屏蔽每个事件的时间信息,将训练集中的所有四重事件转换为三元组。图二的左半部分体现了这一过程。我们得到一个由所有三元组组成的全局静态KG (GSKG),并通过现有的任何规则学习算法从GSKG中挖掘静态规则。事实上,时间规则可以看作是具有各种时间规则模式的静态规则的扩展。

在动态规则学习阶段,我们制定以下五个时间规则模式:

1.两个原子具有不同时间戳的长度 1 规则:p_2\left( x,y,t+t_1 \right) \Longleftarrow p_1\left( x,y,t \right)

2.两个原子同时(时间戳相同)有效的长度为 1 规则:p_2\left( x,y,t \right) \Longleftarrow p_1\left( x,y,t \right)

3.三个原子的时间戳彼此不同的长度 2 规则:p_3\left( x,y,t+t_1+t_2 \right) \Longleftarrow p_1\left( x,z,t \right) \land p_2\left( z,y,t+t_1 \right)

4.一个长度为 2 的规则,其中 体原子的时间戳与中心原子的时间戳不同:p_3\left( x,y,t+t_1\right) \Longleftarrow p_1\left( x,z,t \right) \land p_2\left( z,y,t \right)

5. 三个原子的长度 2 规则同时有效:p_3\left( x,y,t\right) \Longleftarrow p_1\left( x,z,t \right) \land p_2\left( z,y,t \right)

上图为五种时间规则模式的简要图。这些点表示变量。红线表示中心原子中的谓词,黑线表示体原子中的谓词。

接下来,我们根据我们设置好的五个时间规则,来将每个静态规则扩展为相应的候选时间规则。我们需要评估候选的时间规则的质量,分为以下几步:

1.将同一时间窗口中的事件合并为一个子图,因为一些因果相关事件可能出现在同一个子图或相邻子图中

2.搜索满足候选时间规则基础的所有事件。具体到一般形式的长度为1的时间规则p_2\left( x,y,t+t_1 \right) \Longleftarrow p_1\left( x,y,t \right)当T1 > 0时,满足模式1,当t1=0时,满足模式2.

3.根据以往规则学习模型(Sadeghian et al. 2019)中评价标准的定义,我们提出了时间规则的支持度(SD)、标准置信度(SC)和头部覆盖(HC)

SD=\left\{ \begin{matrix} \begin{array}{c} \#\left( a,b \right) :\\ \#\left( a,b \right) :\\ \end{array}& \begin{array}{c} p_1\left( a,b,t \right) \land p_2\left( a,b,t \right)\\ \sum_{t_{1i}\in \left[ 1.W_T \right]}{p_1\left( a,b,t \right) \land p_2\left( a,b,t+t_{1i} \right) \,\,}\\ \end{array}& \begin{array}{c} T_1=0\\ T_1>0\\ \end{array}\\ \end{matrix} \right.

SC=\begin{cases} \small{\frac{SD}{\#\left( a,b \right) :p_1\left( a,b,t \right)}}& T_1=0\\ \frac{1}{|W_T|}\cdot \frac{SD}{\#\left( a,b \right) :p_1\left( a,b,t \right)}& T_1>0\\ \end{cases}

HC=\begin{cases} \frac{SD}{\#\left( a,b \right) :p_2\left( a,b,t \right)}& T_1=0\\ \frac{SD}{\#\left( a,b \right) :\sum_{t_{1i}\in \left[ 1.W_T \right]}{p_2\left( a,b,t+t_{1i} \right)}}& T_1>0\\ \end{cases}

在其中W_T表示预定义时间窗口的大小,我们根据时间规则的评估标准遍历时间戳 t 来获取每个候选时间规则的 SC 和 HC。本节采用满足 SC 和 HC 阈值的候选时间规则进行以下正则化策略。

经过设计的RGPR机制

我们定义一个时间转移算子T,以时间规则3p_3\left( x,y,t+t_1+t_2 \right) \Longleftarrow p_1\left( x,z,t \right) \land p_2\left( z,y,t+t_1 \right)为例,将体原子 p1 (x, z, t) 投影到头部原子的同一时间窗口需要两次时间传输操作。此外,提出了时间规则引导的谓词嵌入正则化 G,将时间规则中隐含的因果关系注入到对应于每个时间规则模式的谓词嵌入中。

时间规则1p_2\left( x,y,t+t_1 \right) \Longleftarrow p_1\left( x,y,t \right)G=\left\| \left( T\circ p_{r1} \right) -p_{r2} \right\|

时间规则2p_2\left( x,y,t \right) \Longleftarrow p_1\left( x,y,t \right)G=\left\| p_{r1}-p_{r2} \right\|

时间规则3p_3\left( x,y,t+t_1+t_2 \right) \Longleftarrow p_1\left( x,z,t \right) \land p_2\left( z,y,t+t_1 \right)G=\left\| \left( T\circ T\circ p_{r1} \right) \circ \left( T\circ p_{r2} \right) -p_{r3} \right\|

时间规则4p_3\left( x,y,t+t_1\right) \Longleftarrow p_1\left( x,z,t \right) \land p_2\left( z,y,t \right)G=\left\| \left( T\circ p_{r1} \right) \circ \left( T\circ p_{r2} \right) -p_{r3} \right\|

时间规则5p_3\left( x,y,t\right) \Longleftarrow p_1\left( x,z,t \right) \land p_2\left( z,y,t \right)G=\left\| p_{r1}\circ p_{r2}-p_{r3} \right\|

其中pr1、pr2 和 pr3 分别表示谓词 p1、p2 和 p3 的嵌入,\circ表示哈达玛积运算,从理论上证明设计的 G 可以对事件之间的因果关系进行建模。

基于联合事件和常识的KGE

本文选择利用常识的长期有效性来准确评估事件的合理性,因为一些反对常识的事件永远不会发生。因此,我们从时间敏感表示和时间无关表示的角度对每个事件进行建模。为了学习事件的时间敏感表示,受TKGE模型TComplEx (Lacroix, Obozinski和Usunier 2020)的启发,我们通过四阶张量分解学习每个事件的时效性。此外,事件之间的因果关系可以通过我们的 RGPR 机制以及主题和对象嵌入来表示。最终,给定一个事件四元组 (s, p, o, t),时间敏感的得分函数定义为:E_1\left( s,p,o,t \right) =\mathrm{Re}\left( s^{\top}\mathrm{diag}\left( p_t+p_r \right) \bar{o} \right) =\mathrm{Re}\left( \sum_{i=1}^d{\left[ s \right] _i\cdot \left[ p\circ t+p_r \right] _i\cdot \left[ \bar{o} \right] _i} \right)

其中s\in \mathbb{C} ^d,p\in \mathbb{C} ^d,o\in \mathbb{C} ^d分别表示 d 维复向量空间中关于 s,p 和 o 的嵌入。\bar{o}是o的共轭。pt = p ◦ t 表示受时间戳 t 约束的谓词嵌入。pr 是我们的 RGPR 机制学习的谓词 p 的因果关系表示。作用为引入因果关系,即如果某些事件成立,则与这些事件因果相关的其他事件将根据谓词嵌入的正则化获得更高的分数。[x]_i表示复向量 x 的第 i 个值.

基于上述公式开发的评分函数,我们可以联合表示事件的及时性和因果关系,促进事件的更充分的时间敏感表示。

为了学习与事件相关常识的时间无关表示,每个事件中的时间戳被屏蔽以将事件四元组 (s, p, o, t) 转换为事实三元组 (s, p, o),即转化为GSKG。我们通过可学习的概念和谓词嵌入以及提出的基于常识的与时间无关的评分函数来对常识视图中的每个事件进行评分:E_2\left( s,p,o \right) =\mathrm{Re}\left( \sum_{i=1}^d{\left[ s_c \right] _i\cdot \left[ p_c \right] _i\cdot \left[ \bar{o}_c \right] _i} \right)

其中s_c\in \mathbb{C} ^k,p_c\in \mathbb{C} ^k,o_c\in \mathbb{C} ^k分别表示关于主语 s、谓语 p 和宾语 o 的 k 维复向量空间中的概念嵌入。k 应该设置为小于 d 以增强实体概念嵌入的抽象特征

接下来,我们优化目标,使用log-softmax损失函数和N3正则化来设计训练目标进行训练。本文的模型还使用 Adam 优化器(Kingma 和 Ba 2015)进行训练,以学习实体、谓词、概念和时间戳的嵌入。

实验结果

数据集:ICEWS14,ICEWS05-15和Wikidata12k。ICEWS14 和 ICEWS05-15 都包含具有特定时间戳的政治事件。Wikidata12k(Dasgupta、Ray 和 Talukdar 2018)是 Wikidata 的一个子集(Erxleben 等人,2014 年),其中每个时间注释都是一个时间戳或时间间隔。以 80%/10%/10% 的比例分为训练集、验证集和测试集。

本文的评估重点在于评估预测实体,评估函数为E1和E2的分数之和。

基线模型:

(1)一些没有时间信息的典型 KGE 模型

(2)之前性能良好的TKGE模型

消融实验发现常识这一模块对模型影响巨大,而由于高质量的时间规则较少,所以时间的影响偏小