【略读论文|时序知识图谱补全】Learn from Relational Correlations and Periodic Events for Temporal Knowledge Graph Reasoning-526互联

会议：SIGIR，时间：2023，学校：国防科技大学

摘要：

之前模型存在的问题：未能利用快照内结构信息的关系之间的语义相关性与快照间时间交互沿时间轴的周期性时间模式。
本文的工作：提出了一种新的推理模型（RPC）；它通过两个新的通信单元，即关系通信单元(RCU)和周期通信单元(PCU)，充分挖掘关系关联和周期模式背后的信息。其中，关系图卷积网络(RGCN)和关系图卷积网络(RCU)分别用于实体和关系的快照内图结构信息编码。此外，门控循环单元(GRU)和门控循环单元(PCU)分别用于时序和周期性快照间时间交互。此外，由time2vector编码器生成与模型无关的时间向量，以指导时间相关的解码器进行事实评分。

介绍：

TKG实例：(Mike, date, Amy, Dec. 11)表示Mike与Amy在12月11日有一个约会，如下图 (a)所示。子图(a)和(b)是两种不同的tkg视图。通过挖掘TKGs背后的逻辑模式，TKGR模型旨在推断缺失的事件，这些事件用红色虚线表示。此外，蓝框表示不同的KG快照，两条灰线表示“intra-”和“inter-”分别用于描述快照“内部”和“之间”的交互。

图1

本文的主要工作是针对TKGR中的外推推理，即为推测未来的事实。为了完成这一任务，本文发现两种类型的信息，即快照内的结构信息和快照间的时间交互，主要有助于在以前的模型中学习到用于推理的表示。前一个信息描述了每个KG快照的图结构中的逻辑模式，而后一个信息描述了不同时间戳的KG快照之间的临时交互。
但是以前的模型存在一定的局限性，主要表现在：
1.对于快照内的信息，这些模型没有利用关系之间的语义相关性。实体间的相互作用往往被抽象成图中的边，这种结构信息可以很容易地通过大多数GNN模型获得。但是常见的关系相关性背后的丰富信息在TKG中往往被忽视，这需要被利用起来，有利于优化模型的表达能力。例如，由于冠状病毒Omicron XBB在两个亲自接触的人之间具有高度传染性，因此，关系感染将与会面、日期等关系具有很强的相关性。
2.对于快照间的相互作用，这些模型忽略了沿着时间轴挖掘周期时间信息。本文认为，当未来发生类似事件时，过去围绕此类事件的相关信息将在推理中发挥重要作用，因为它们将留下类似的影响。例如，在奥运会期间，每四年就会出现一次旅游热潮。
本文的模型：一种新的编码器-解码器外推时间关系推理模型，称为RPC
模型构成：通过两个新的对应单元，即关系对应单元(RCU)和周期对应单元(PCU)，充分挖掘关系关联和周期模式背后的信息。
快照内信息：分别使用关系图卷积网络(RGCN)和RCU对实体和关系进行编码。具体来说，在RCU中，关系是基于关系对应图进行编码的，关系对应图是根据设计的构造策略从原始图中重构出来的
快照间信息：采用门控循环单元(GRU)来获取时序时间信息，并提出新的周期对应单元(PCU)，通过计算不同KG快照之间的对应分数来捕获特定范围(即k-Historical window)内的周期时间信息
其余操作：由time2vector编码器生成与模型无关的时间向量，以指导时间相关的解码器进行事实评分。

模型方法：

前置信息：

在本文中，定义TKG为\({\mathcal{G}=\left\{ \mathcal{E},\mathcal{R},\mathcal{S}_\mathcal{G},\mathcal{T}\right\}}\)，我们可以将其视为一系列静态知识图谱的快照集合\({\mathcal{S}_\mathcal{G}=\left\{ \mathcal{G}_1,\mathcal{G}_2,\cdots,\mathcal{G}_T\right\}}\)，其中\({\mathcal{G}_t=\left\{(e_h,r_{h,t},e_t,t)\right\}}\),任务可以被描述为：在时间戳\({0<t<T}\)的TKG上，预测查询事实\({\left( e_{h}^{q},r_{h,t}^{q},?,t^q \right)}\)的可能性，并给出最可信尾实体\({e_q^t}\)。此外，本文观察到现有的TKGR模型主要利用两类信息进行推理，即快照内的结构信息和快照间的时间信息，如图1 (b)所示，为了更好地理解我们的模型，我们在下面定义了这两类信息：
快照内部结构信息：给定一个TKG，每个KG快照中的信息称为快照内信息。由于这些信息通常是作为图结构表示来挖掘的，所以它也被称为快照内结构信息，可以从两个来源进一步学习，即KG快照中的实体和关系
快照间时间信息：给定一个TKG，不同KG快照之间的信息称为快照间信息。这些信息通常建模为时间交互，可以分为两种类型，即连续KG快照之间的顺序时间信息和不同时间戳的类似周期性KG快照之间的周期性时间信息。

模型架构：

本文提出的RPC框架通过两个新颖而简单的通信单元，即关系通信单元(RCU)和周期通信单元(PCU)，充分挖掘了关系关联和周期模式背后的信息。具体来说，GNN和RCU分别用于实体和关系的快照内图结构信息编码。此外，GRU和PCU分别设计用于?-Historical Windows范围内的顺序和周期性快照间时间交互。此外，由time2vector编码器生成与模型无关的时间向量，以指导时间相关的解码器进行事实评分。

图2

快照内结构信息表示学习：

可以从两个不同的来源挖掘，包括实体和关系。具体而言，采用图神经网络(GNN)进行实体表示学习，设计了一种新的关系对应单元(RCU)进行关系表示学习。下面将介绍这两个模块的更多细节：

基于一维卷积的RGCN编码器：

本文利用于一维卷积的RGCN编码器在每个时间戳对实体进行编码。聚合函数定义为：
\({h_{e_t,t}^{l+1}=\sigma \left( \sum_{\left( e_h,r_{h,t},e_t,t \right) \in \mathcal{G} _t}{\frac{1}{c_{e_h,r_h,t}}h_{e_t,t}^{l}W_{r,t}^{l}+h_{e_h,t}^{l}W_{0}^{l}} \right)}\)（1）
其中\({h_{e_h,t}^{l}}\)和\({h_{e_t,t}^{l}}\)分别是第l层实体\({e_h}\)和\({e_t}\)在第t个KG快照中的嵌入；\({\mathcal{N}_{i,r,t}}\)表示实体\({e_i}\)在第t个时间戳关系r下的邻居索引集，\({c_{e_h,r,t}=|N_{e_h,r,t}|}\)是一个归一化常数；\({W_0^l}\)和\({W_r^l}\)是权重参数；\({\sigma(·)}\)是激活函数。
在此基础上，可以进一步得到在?时间戳处的KG快照的实体表示\({E_{\mathcal{G}_t}}\)：
\({E_{\mathcal{G} _t}=\bigotimes_{e\in \mathcal{E} _t}{h_{e,t}}}\)

关系对应单元（RCU）：

RCU的构建是为了挖掘RPC中关系之间的语义相关性，其包含两个主要过程：
1.关系相关图（RCG）构建
RCG 是一个无向图，其中每个节点代表相应 G 中的一种关系。本文的 RCG 中登记了三种类型的边，包括 T-T、H-H 和 SEQ。
T-T：尾对尾，是指G中的两条边从同一实体发出的情况
H-H：头对头，是指G中的两条边都进入同一个实体的情况
SEQ：顺序的，是指两条边首尾相连的情况
三种边关系如下图所示，根据G中的(B, \({r_1}\), A)和(B, \({r_2}\), D)，可以得到RCG中的(\({r_1}\), T-T, \({r_2}\))。此外，在G中还可以得到(\({r_1}\), H-H, \({r_5}\)) ，其是根据G中的(B,\({r_1}\),A)和(D,\({r_5}\),A)生成的：

2.关系编码：
我们将第k个KG 快照中的关系表示基于式（1）聚合到 \({\mathcal{RCG}_t}\) 上：
\({h_{r,t}=\sigma \left( W\sum_{r_n\in \mathcal{N} _r}{\frac{1}{N_r}h_{n,t}} \right)}\)
其中 \({\mathcal{N}_r}\) 表示 \({\mathcal{RCG}_t}\) 中关系 ? 的连接节点集，\({h_{r,t}}\) 是目标关系的学习嵌入。
与实体表示学习类似，我们可以通过将所有关系表示连接起来，进一步得到时间戳t处的 KG 快照的关系表示\({R_{\mathcal{G}_t}}\)：
\({R_{\mathcal{G} _t}=\bigotimes_{r\in \mathcal{R} _t}{h_{e,t}}}\)

快照间时间交互建模：

时间线上不同快照之间的快照间时间交互类型：顺序时间交互和周期性时间交互
顺序时间交互：
使用门控循环单元（GRU）（即轻量级循环神经网络（RNN））来模拟此类交互
周期性时间交互：
设计了周期性对应单元（PCU）来捕获历史中最对应和相似的 KG 快照，并进一步整合它们以细化最终的嵌入以进行评分。

门控循环单元 (GRU)：

采用双门循环机制分别捕获实体和关系的顺序时间信息。两个 GRU 模型，即 \({GRU_E}\) 和 \({GRU_R}\)，根据式（1）逐步更新实体和关系的表示：
\({E_t=\begin{cases} GRU_E\left( E_{\mathcal{G} _{t-1}},E_{t-1} \right)& t\in \left[ 0,T-1 \right]\\ GRU_E\left( E_{\mathcal{G} _{t-1}}\oplus \alpha \cdot E_p,E_{t-1} \right)& t=T\\ \end{cases}}\)
\({R_t=\begin{cases} GRU_R\left( R_{\mathcal{G} _{t-1}},R_{t-1} \right)& t\in \left[ 0,T-1 \right]\\ GRU_R\left( R_{\mathcal{G} _{t-1}}\oplus \alpha \cdot R_p,R_{t-1} \right)& t=T\\ \end{cases}}\)
其中\({E_t}\)和\({R_t}\)是实体和关系的嵌入。下标字母?表示嵌入的时间戳。\({E_{\mathcal{G}_{t-1}}}\)和\({R_{\mathcal{G}_{t-1}}}\)是在特定时间戳的 KG 快照上编码后的嵌入。\({E_p}\)和\({R_p}\)是由周期性对应单元（PCU）生成的周期性历史嵌入，?是周期性历史嵌入的权衡权重。

定期通信单位 (PCU)：

周期性对应单元（PCU）是一种新颖的机制，用于挖掘历史上周期性时间相互作用背后的信息，该机制不基于特定事件的频率。其主要思想是捕获最相似的快照并使用这些选定快照的表示来完善最终表示。具体来说，PCU中设计了三个步骤，如下图所示，包括嵌入缓存、对应计算和权重分配。

嵌入缓存：旨在存储由 k-历史窗口裁剪的最新 k 个时间戳的快照的嵌入，在图2中详细体现了该过程。 k大小的信息缓冲区，即info-buffer，用于缓存，其中k是用户定义范围的大小。
对应计算：接下来，根据对应计算过程中的相似度函数计算每个裁剪快照的表示与最新快照之间的对应权重\({H_{t-1}}\)。本文选择余弦相似度函数作为相似度函数的计算。
\({W_p=\left\{ w_{1,i}|i\in \left[ t-k,t-1 \right] \right\}}\)
\({w_{1,i}=\mathrm{co}\sin e\left( readout\left( H_{t-1} \right) ,readout\left( H_i \right) \right)}\)
其中W是各种\({w_{1,i}}\)构成的权重向量，\({w_{1,i}}\)表示对应权重（见上图）。 readout(·)的目的是根据矩阵得到表示向量，更适合余弦相似度计算。
权重分配：在权重分配过程中，我们根据权重（即相似度分数）选取前 m 个相似的 KG 快照，然后通过加权串联生成周期性历史嵌入：
\({I^*=arg\,\,top_m\left( W_p \right)}\)
\({H_p=\sum_{i^*\in I^*}{w_{1,i^*}\cdot H_{t-i^*}}}\)
其中\({I^*}\)由W中最高的m个值的索引组成。\({i^*}\)中所选索引的相应权重有助于最终的周期性嵌入 \({H_p}\)。请注意，H 可以分别用 E 和 R 代替实体和关系。

时间相关解码：

本文受 TiRGN的启发，采用 time2vector编码器生成时间向量，即周期性和非周期性时间向量，以指导解码器在从帧内快照获得表示后将周期性属性合并到事实中和快照间信息。

Time2Vector编码器：

周期性和非周期性时间相关向量，即 \({T_t^p}\) 和 \({T_t^{np}}\)是通过利用 Time2Vec 编码器根据下式生成：
\({T_{t}^{p}=\sin \left( \omega _pt+\phi _p \right)}\)
\({T_{t}^{np}=\omega _{np}t+\phi _{np}}\)
其中\({\omega _{np},\omega _p,\phi _{np}}\)和\({\phi _{p}}\)为可学习参数。

特征融合：

融合表示O是通过上述使用的四种表示的卷积运算生成的，即\({E_t,R_t,T_{t}^{p},T_{t}^{np}}\)。计算方式如下：
\({M_c=\left\{ m_{c}^{i}|i\in \left[ 0,d-1 \right] \right\}}\)
\({m_{c}^{n}=\sum_{\tau =0}^{K-1}{w_c\left( \tau ,0 \right) \hat{E}_{t}^{s}\left( n+\tau \right) +w_c\left( \tau ,1 \right) \hat{R}_t\left( n+\tau \right) +w_c\left( \tau ,2 \right) \hat{T}_{t}^{p}\left( n+\tau \right) +}w_c\left( \tau ,3 \right) \hat{T}_{t}^{np}\left( n+\tau \right)}\)
其中c、K和n分别表示卷积核的数量、核宽度和输出向量中的条目（范围从 0 到d-1）。同时，\({w_c}\)是可学习的核参数。此外，我们填充\({E_t,R_t,T_{t}^{p},T_{t}^{np}}\)分别得到\({\hat{E}_{t}^{s},\hat{R}_t,\hat{T}_{t}^{p},\hat{T}_{t}^{np}}\)。每个卷积核形成一个向量 \({M_c}\)，可以进一步对齐得到矩阵\({O_t}\)。

时间相关解码器：

采用前人的Time-ConvTransE作为RPC中的时间相关解码器进行事实评分，其定义如下：\({score=soft\max \left( \mathrm{Re}Lu\left( map\left( O_t \right) W \right) H_{t}^{O} \right)}\)，其中map和W分别是特征映射操作和线性变换矩阵。此外，\({H_t^o}\)表示初始嵌入，可以替换为实体嵌入\({E_t^o}\)或关系嵌入\({R_t^o}\)。

训练：

损失函数L是为实体预测而设计的，其形式化如下：
\({L=\sum_{\left( e_h,r_{h,t},e_t,t \right) \in \mathcal{G}}{y_{t}^{e}\log score\left( e_t|e_h,r_{h,t},t \right)}}\)
其中，\({score\left( e_t|e_h,r_{h,t},t \right)}\) 是由时间相关解码器计算的事实的概率分数。\({y_t^e}\)是标签向量，如果事实发生，则元素为 1；否则为0。

实验：

前期设置：

数据集：GDELT、ICEWS0515、ICEWS14、ICEWS18、YOGA 和 WIKI

评估指标：MRR和Hist@k
实验设置：嵌入的维度设置为200。RGCN编码器的层数设置为2，同时dropout率固定为0.2。范围大小k设置为 18，最相似快照数量m设置为 2。解码通道数设置为50，内核大小设置为4×3。对于周期性历史嵌入，? 值选择为 0.01。 Adam用于参数学习，学习率为0.001。

详细结果：

本文的 RPC 在 MRR 和 Hit@k（即 Hits@1、Hits@3 和 Hits@10）评估指标方面均显着优于其他 TKGR 模型。与第二好的性能相比，RPC 在 MRR、Hits@1、Hits@3 和 Hits@10 上的平均性能分别提高了约 2.4%、2.97%、1.9% 和 2.1%。特别是，RPC 在 GDELT 和 ICEWS18 数据集上将 Hits@1 值提高了约 5.9% 和 5.4%。我们可以对 Hits@1 指标进行此类改进，这意味着我们的模型确实可以推断候选实体中的准确实体。与具有所提出的关系对应和周期性对应单元的其他模型相比，它进一步揭示了我们的 RPC 具有更好的表达能力。

消融实验：

构建6个子模型：
1.原始RPC模型
2.没有RCU的RPC，表示为- RCU
3.没有任何PCU的RPC，表示为\({- PCU_E \&PCU_R}\)
4.没有\({PCU_E}\)的实体模型表示为\({- PCU_E}\)
5. 没有\({PCU_R}\) 的 RPC，表示为\({- PCU_R}\)
6.没有 RCU 和两种类型的 PCU 的 RPC，表示为\({-(RCU \& PCU_E \& PCU_R)}\)

上表显示平均 MRR、Hits@1、Hits@3 和 Hits@10 值分别下降了 1.3%、1.4%、2.5% 和 1.5%。
参考-RCU和\({- PCU_E \&PCU_R}\)的性能比较，我们可以发现PCU做出了更多的性能改进，这表明PCU更对于时序知识图推理（TKGR）有效。此外，\({- PCU_E}\)和\({- PCU_R}\)的结果表明周期对应单元对于实体和关系的有效性与TKGR相对等效。此外，我们还将?????? (·) 对应评分函数替换为另外两个函数，即欧几里得距离?????????(·) 和曼哈顿距离???ℎ? ????(·)，并在WIKI和YAGO上进行了实验。 MRR结果如下图所示。它表明所有评估的功能都可以对有效的PCU做出贡献，其中?????? (·) 是最有效的。

迁移实验：

为了证明本文模型的可迁移性，其将 RPC 的主要思想，即关系对应单元（RCU）和周期对应单元（PCU）扩展到 RE-GCN [29]。设计了四个子模型用于性能比较：
1.原始RE-GCN模型
2.RE-GCN与RCU结合，表示为“+ RCU”
3.RE-GCN与PCU结合，表示为“+ PCU”
4. RE-GCN 与 RCU 和 PCU 组合，表示为“+ (RCU & PCU)”
依照下图，我们可以发现，与上一节的结论类似，RCU和PCU仍然可以使其他TKGR模型受益。例如，据观察，ICEWS14 上的 MRR 上“+RCU”提高了 1.6%，“+PCU”提高了 1.9%，“+（RCU & PCU）”提高了 4.6%。即它表明所提出的机制与模型无关，这意味着它们可以轻松地转移到其他模型。

超参数分析：

本文研究了超参数权衡权重 ? 对四个数据集（即 GDELT、ICEWS14、ICEWS05-15、WIKI）对所有四个评估指标（即 MRR、Hits@1、Hits@3、Hits@10）的影响。对于超参数的范围，对于所有四个数据集，?均在{0.0001,0.001,0.01,0.1,1}中选择。我们观察到，当下图中?变化时，所有评估指标的性能不会有很大波动。这表明，一般来说，RPC 对 ? 不敏感，但我们更有可能在 0.0001 到 0.001 之间找到最佳的 ?。例如，对于 GDELT 和 ICEWS05-15，当 ? = 0.001 时，达到最佳性能；对于 ICEWS14 和 WIKI，当 ? = 0.0001 时，达到最佳性能。