【略读论文|时序知识图谱补全】Temporal Knowledge Graph Reasoning with Historical Contrastive Learning-526互联

会议：AAAI，时间：2023，学校：上海交通大学

摘要：

大多数时序知识图谱的推理方法高度依赖于事件的递归或周期性，这给推断与缺乏历史交互的实体相关的未来事件带来了挑战。本文提出一种新的基于历史对比学习训练框架的对比事件网络（CENET）的新事件预测模型。
1.CENET 学习历史和非历史依赖来区分可以与给定查询最佳匹配的最潜在实体
2.它训练查询的表示，通过启动对比学习来研究当前时刻是否更多地依赖于历史或非历史事件
3.进一步帮助训练一个二元分类器，其输出是一个布尔掩码来指示搜索空间中的相关实体
4.CENET 采用基于掩码的策略来生成最终结果

介绍：

TKG的快照：
图片:

老方法大多都是基于参考历史中的已知事件，可以轻松预测重复或周期性事件，但是一些研究表明，在基于事件的TKG综合危机预警系统方面，以前从未发生过的新事件约占40%。推断这些新事件具有挑战性，因为它们在整个时间线期间具有更少的时间交互跟踪。如下图所示，其中大多数现有方法通常对此类查询获得不正确的结果，因为它们专注于高频重复事件
图片: https://uploader.shimo.im/f/N3EkMbLabqSFmQ9y.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE3MDA0NTYxMzQsImZpbGVHVUlEIjoiNWJxbmRXZ0VhTEYyNEdBeSIsImlhdCI6MTcwMDQ1NTgzNCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo4NTQyMDc0N30.ai4CqPGPGK292fMjdQIzaQddKLCjEx8XFc0HDWhtOdQ
另一个缺陷是在推理过程中，现有方法在没有任何偏差的情况下对整个图中整体候选实体的概率分数进行排名。我们认为，当接近不同事件的缺失实体时，偏差是必要的。对于重复或周期性事件，模型预计会优先考虑一些频繁出现的实体，对于新事件，模型应该更多地关注历史交互较少的实体
本文的主要工作：
1.超越历史信息的限制，从整个知识中挖掘潜在的时间模式
1.1 定义历史实体和非历史实体
2.直观地认为TKG中的事件不仅与其历史事件有关，而且与未观察到的潜在因素间接相关。因此，提出了一种新的TKG推理模型，称为CENET(对比事件网络)，用于基于对比学习的事件预测。
2.1给定一个查询 (s, p,., t) 其真实对象实体为 o，CENET 考虑了其历史和非历史事件，并通过对比学习识别显着实体。具体来说：
2.1.1采用基于复制机制的评分策略来模拟历史和非历史事件的依赖性
2.1.2所有查询都可以根据它们的真实对象实体分为两类：对象实体 o 是历史实体或非历史实体
2.2 CENET 自然地使用监督对比学习来训练两类查询的表示，进一步帮助训练一个输出是一个布尔值的分类器，以识别哪种实体应该受到更多关注。
2.3 在推理过程中，CENET 结合了历史和非历史依赖的分布，并根据分类结果进一步考虑与基于掩码的策略高度相关的实体
本文贡献：
1.我们提出了一个称为 CENET 的 TKG 模型来进行事件预测。CENET不仅可以通过联合调查历史和非历史信息来预测重复和周期性事件，还可以预测潜在的新事件
2.据我们所知，CENET 是第一个将对比学习应用于 TKG 推理的模型，它训练查询的对比表示以识别高度相关的实体
3.我们对五个公共基准图进行了实验。结果表明，CENET 在事件预测任务中优于最先进的 TKG 模型

模型方法：

图片: https://uploader.shimo.im/f/vUJquGH6KC40YkkJ.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE3MDA0NTYxMzQsImZpbGVHVUlEIjoiNWJxbmRXZ0VhTEYyNEdBeSIsImlhdCI6MTcwMDQ1NTgzNCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo4NTQyMDc0N30.ai4CqPGPGK292fMjdQIzaQddKLCjEx8XFc0HDWhtOdQ
CENET模型架构如上图所示，左侧部分从历史和非历史依赖中学习实体的分布。右侧说明了历史对比学习的两个阶段，旨在识别高度相关的实体，输出是布尔掩码向量。中间部分是基于掩码的推理过程，它结合了从两种依赖和掩码向量中学习到的分布来生成最终结果。

前置设定：

令 E、R 和 T 分别表示一组有限的实体、关系类型和时间戳。时间知识图 G 是一组四元组，形式化为 (s, p, o, t)。
历史实体与非历史实体：给定一个查询 q = (s, p,?, t)，我们将历史事件集定义为数学公式: ${\mathcal{D}_t^{s,p}}$,对应的历史事件集定义为数学公式: ${\mathcal{H}_t^{s,p}}$，具体定义如下：
数学公式: ${\mathcal{D} _{t}^{s,p}=\bigcup_{k<t}{\left\{ \left( s,p,o,k \right) \in \mathcal{G} _k \right\}}}$
数学公式: ${\mathcal{H} _{t}^{s,p}=\left\{ o|\left( s,p,o,k \right) \in \mathcal{D} _{t}^{s,p} \right\}}$
不在数学公式: ${\mathcal{H}_t^{s,p}}$ 中的实体称为非历史实体,其集合表示为数学公式: ${\left\{ \left( s,p,o\prime,t \right) |o\prime\notin \mathcal{H} _{t}^{s,p},k<t \right\}}$，这些是一些可能不存在知识图谱G中的四元组。我们还使用数学公式: $ \mathcal{D}_t^{s,p} $来表示当前事件 (s, p, o, t) 的历史事件集。如果事件 (s, p, o, t) 本身不存在于其对应的数学公式: $ \mathcal{D}_t^{s,p} $ 中，那么它就是一个新的事件。

具体方法：

1.在数据预处理期间，我们首先研究给定查询q=(s,p,?,t)的历史实体频率。更具体地说，我们计算所有实体的频率数学公式: ${\mathbf{F}_t^{s,p}\in\mathbb{R}^{|E|}}$作为在时间 t 之前与主语 s 和谓词 p 相关联的对象。（简单解释：以尾实体为键，计数t时刻之前，头实体为s，关系为p的尾实体。）具体计算公式如下：
数学公式: ${\mathbf{F}_{t}^{s,p}\left( o \right) =\sum_{k<t}{|\left\{ o|\left( s,p,o,k \right) \in \mathcal{G} _k \right\} |}}$
由于我们无法计算非历史实体的频率，CENET 将 Fs,pt 转换为数学公式: ${\mathbf{Z}_t^{s,p}\in\mathbb{R}^{|E|}}$，其中每个槽的值受超参数 λ 的限制，具体计算公式如下：
数学公式: ${\mathbf{Z}_{t}^{s,p}\left( o \right) =\lambda \cdot \left( \varPhi _{\mathbf{F}_{t}^{s,p}\left( o \right) >0}-\varPhi _{\mathbf{F}_{t}^{s,p}\left( o \right) =0} \right)}$
其中，数学公式: ${\varPhi_\beta}$是指示函数，若β为真，则返回1，否则为0。若数学公式: $ \mathbf{Z}_t^{s,p}>0 $表示四元组(s, p, o, tk)是一个与s, p和t (tk < t)相关的历史事件，而数学公式: ${\mathbf{Z}_t^{s,p}<0}$表示四元组(s, p, o, tk)是一个G中不存在的非历史事件。
2.CENET 基于输入数学公式: ${\mathbf{Z}_t^{s,p}}$从历史和非历史事件中学习依赖关系。CENET采用基于复制机制的学习策略（Gu et al. 2016）从两个方面捕获不同类型的依赖关系：一个是查询和实体集之间的相似度得分向量，另一个是查询的相应频率信息具有复制机制。
首先是对历史事件集进行处理，为查询q生成一个潜在的上下文向量数学公式: ${\mathbf{H}_{his}^{s,p}\in\mathbb{R}^{|E|}}$，来为不同对象实体的历史依赖性进行评分，具体计算公式如下：
图片: https://uploader.shimo.im/f/g2vVrJhnKIeZUUfM.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE3MDA0NTYxMzQsImZpbGVHVUlEIjoiNWJxbmRXZ0VhTEYyNEdBeSIsImlhdCI6MTcwMDQ1NTgzNCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo4NTQyMDc0N30.ai4CqPGPGK292fMjdQIzaQddKLCjEx8XFc0HDWhtOdQ
其中 tanh 是激活函数，⊕ 表示连接算子，数学公式: ${\mathbf{W}_{his}\in\mathbb{R}^{d\times 2d}}$和数学公式: ${b_{his}\in\mathbb{R}^d}$是可训练的参数。我们使用具有 tanh 激活的线性层来聚合查询的信息。然后将线性层的输出乘以 E 以获得 |E| 维向量，其中每个元素表示对应实体 o′ ∈ E 与查询 q 之间的相似度得分。
随后，根据复制机制，我们添加复制项数学公式: ${\mathbf{Z}_t^{s,p}}$来改变数学公式: ${\mathbf{H}_{his}^{s,p}}$中历史实体的索引分数，p 他直接指向更高的值，而不会对梯度更新做出贡献。基于此，数学公式: ${\mathbf{Z}_t^{s,p}}$使数学公式: ${\mathbf{H}_{his}^{s,p}}$更关注历史实体。
类似地，对于非历史依赖，我们定义潜在上下文向量数学公式: ${\mathbf{H}_{nhis}^{s,p}}$：
数学公式: ${\mathbf{H}_{nhis}^{s,p}=\tanh \left( \mathbf{W}_{nhis}\left( s\oplus p \right) +b_{nhis} \right) \mathbf{E}^T-\mathbf{Z}_{t}^{s,p}}$
与历史依赖（等式 6）相反，减去数学公式: ${\mathbf{Z}_t^{s,p}}$使数学公式: ${\mathbf{H}_{nhis}^{s,p}}$专注于非历史实体。从历史和非历史事件中学习的训练目标是最小化以下损失数学公式: ${\mathcal{L}^{ce}}$:
数学公式: ${\mathcal{L} ^{ce}=-\sum_q{\log \left\{ \frac{\exp \left( \mathbf{H}_{his}^{s,p}\left( o_i \right) \right)}{\sum_{o_j\in \mathcal{E}}{\exp \left( \mathbf{H}_{his}^{s,p}\left( o_j \right) \right)}}+\frac{\exp \left( \mathbf{H}_{nhis}^{s,p}\left( o_i \right) \right)}{\sum_{o_j\in \mathcal{E}}{\exp \left( \mathbf{H}_{nhis}^{s,p}\left( o_j \right) \right)}} \right\}}}$
其中oi表示给定查询q的基础真值对象实体。数学公式: ${\mathcal{L}^{ce}}$的目的是通过比较数学公式: ${\mathbf{H}_{his}^{s,p}}$和数学公式: ${\mathbf{H}_{nhis}^{s,p}}$中的每个标量值来区分基础真值。在推理过程中，CENET将上述两个潜在上下文向量的softmax结果组合为所有对象实体的预测概率数学公式: ${\mathbf{P}_{t}^{s,p}}$：
数学公式: ${\mathbf{P}_{t}^{s,p}=\frac{1}{2}\left\{ soft\max \left( \mathbf{H}_{his}^{s,p} \right) +soft\max \left( \mathbf{H}_{nhis}^{s,p} \right) \right\}}$
其中具有最大值的实体是组件预测的最有可能的实体。

历史对比学习：

存在的问题：然而，许多重复和周期性的事件只与历史实体相关联。此外，对于新事件，现有模型可能会忽略那些历史交互较少的实体，并预测出与其他事件频繁交互的错误实体。
提出的历史对比学习训练查询的对比表示，以在查询级别识别少量高度相关的实体。监督对比学习分为两个阶段：我们首先引入数学公式: $ I_q $来表示查询q的缺失对象是否在数学公式: $ H_t^{s,p} $中。若其等于1，则证明在其中，否则为0则不在。这两个阶段的目的是训练一个二元分类器，该分类器为查询q推断出布尔标量的值。
1.学习对比表征：
模型通过最小化监督对比损失来学习查询的对比表示，以数学公式: $ I_q $是否为正作为训练标准，在语义空间中尽可能分离不同查询的表示。设数学公式: $ v_q
$为给定查询q的嵌入向量：
数学公式: ${v_q=MLP\left( s\oplus p\oplus \tanh \left( \mathbf{W}_F\mathbf{F}_{t}^{s,p} \right) \right)}$
其中，查询信息通过MLP编码进行规范化，并将嵌入投影到单位球上进行进一步的对比训练。接下来，设M表示minbatch，Q(q)表示M中除q以外的所有布尔标签与Iq相同的查询集合。第一阶段有监督对比损失函数数学公式: ${\mathcal{L}^{sup}}$:
数学公式: ${\mathcal{L} ^{sup}=\sum_{q\in M}{\frac{-1}{|Q\left( q \right) |}\sum_{k\in Q\left( q \right)}{\log \frac{\exp \left( v_q\cdot v_k/\tau \right)}{\sum_{a\in M\backslash\{q\}}{\left( v_q\cdot v_a/\tau \right)}}}}}$
其中，数学公式: ${\mathbf{W}_F\in\mathbb{R}^{d\times |\mathcal{E}|}}$为可训练参数，τ∈R+为实验中根据前人工作推荐设置为0.1的温度参数。数学公式: ${\mathcal{L}^{sup}}$的目标是使同一类别的表示更接近。需要注意的是，对比监督损失数学公式: ${\mathcal{L}^{sup}}$和之前的类交叉熵损失数学公式: ${\mathcal{L}^{sup}}$是同时训练的。
2.训练二分类器：
当第一阶段训练完成后，CENET冻结第一阶段对应参数E、P及其编码器的权值。然后将数学公式: $ v_q
$馈送到线性层，根据基础真值数学公式: $ I_q $训练具有交叉熵损失的二值分类器。
现在，分类器可以识别查询q的缺失对象实体是否存在于历史实体集合中。
在推理过程中，生成一个布尔掩码向量数学公式: ${\mathbf{B}_t^{s,p}\in\mathbb{R}^{|\mathcal{E}|}}$，根据预测的数学公式: $ I_q $和数学公式: ${o\in\mathcal{H}_t^{s,p}}$是否为真来识别应该关注哪一类实体:
数学公式: ${\mathbf{B}_{t}^{s,p}\left( o \right) =\varPhi _{o\in \mathcal{H} _{t}^{s,p}=\hat{I}_q}}$
如果预测缺失的对象在数学公式: ${\mathcal{H}_t^{s,p}}$中，那么历史集中的实体将得到更多的关注。否则，历史集合之外的实体更有可能被访问。
伪代码：
图片: https://uploader.shimo.im/f/oG1MDjOTxMOLdaEw.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE3MDA0NTYxMzQsImZpbGVHVUlEIjoiNWJxbmRXZ0VhTEYyNEdBeSIsImlhdCI6MTcwMDQ1NTgzNCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo4NTQyMDc0N30.ai4CqPGPGK292fMjdQIzaQddKLCjEx8XFc0HDWhtOdQ

参数学习与推理：

我们在第一阶段最小化损失函数：图片: https://uploader.shimo.im/f/2J7Jn0Mp6yAuQ6IP.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE3MDA0NTYxMzQsImZpbGVHVUlEIjoiNWJxbmRXZ0VhTEYyNEdBeSIsImlhdCI6MTcwMDQ1NTgzNCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo4NTQyMDc0N30.ai4CqPGPGK292fMjdQIzaQddKLCjEx8XFc0HDWhtOdQ
其中α是一个介于0到1之间的超参数，用于平衡不同的损失。在第二阶段，我们选择具有s型激活的二元交叉熵来训练二元分类器。从图2中可以看出，中间部分是分别从两边接收分布数学公式: ${\mathbf{P}_t^{s,p}}$和掩码向量数学公式: ${\mathbf{B}_t^{s,p}}$的推理过程。然后，CENET将选择概率最高的对象作为最终预测：
图片: https://uploader.shimo.im/f/Bhp1hMwH1PISUcMv.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE3MDA0NTYxMzQsImZpbGVHVUlEIjoiNWJxbmRXZ0VhTEYyNEdBeSIsImlhdCI6MTcwMDQ1NTgzNCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo4NTQyMDc0N30.ai4CqPGPGK292fMjdQIzaQddKLCjEx8XFc0HDWhtOdQ
此外，当错误地掩盖预期的对象实体时，第二阶段历史对比学习的糟糕分类器可能会降低性能。因此，有一个折衷的替代:图片: https://uploader.shimo.im/f/uzTTN0uojvh81Q8I.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE3MDA0NTYxMzQsImZpbGVHVUlEIjoiNWJxbmRXZ0VhTEYyNEdBeSIsImlhdCI6MTcwMDQ1NTgzNCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo4NTQyMDc0N30.ai4CqPGPGK292fMjdQIzaQddKLCjEx8XFc0HDWhtOdQ
本文称前一个版本为硬掩码，后一个版本为软掩码。硬掩码可以减少搜索空间，软掩码可以获得更有说服力的分布，使模型更加保守。
实验：
基准数据集：5个
包括3个基于事件的TKGs：前三种基于事件的TKGs由综合危机预警系统(ICEWS18 (Boschee et al. 2015)和ICEWS14 (Trivedi et al. 2017))和事件、语言和语气全球数据库(GDELT (Leetaru and Schrodt 2013))组成，其中任何时候都可能发生单个事件。
2个公共KGs：两个公开的KGs (WIKI (Leblay and Chekol 2018)和YAGO (Mahdisoltani, Biega, and Suchanek 2014))由时间相关的事实组成，这些事实持续很长时间，未来几乎不会发生。
CENET与15种最新的知识图推理模型进行了比较，包括静态和时态方法。
模型配置：本文将批大小设置为1024，嵌入维度设置为200，学习率设置为0.001，并使用Adam优化器。L的训练历元限制为30，第二阶段的对比学习历元限制为20。超参数α的值设为0.2，λ设为2。对于基线的设置，我们使用它们的推荐配置。
图片: https://uploader.shimo.im/f/DxDHoUlf3WwHbbKP.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE3MDA0NTYxMzQsImZpbGVHVUlEIjoiNWJxbmRXZ0VhTEYyNEdBeSIsImlhdCI6MTcwMDQ1NTgzNCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo4NTQyMDc0N30.ai4CqPGPGK292fMjdQIzaQddKLCjEx8XFc0HDWhtOdQ
图片: https://uploader.shimo.im/f/UHztmt68KJc5Idxw.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE3MDA0NTYxMzQsImZpbGVHVUlEIjoiNWJxbmRXZ0VhTEYyNEdBeSIsImlhdCI6MTcwMDQ1NTgzNCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo4NTQyMDc0N30.ai4CqPGPGK292fMjdQIzaQddKLCjEx8XFc0HDWhtOdQ
消融实验：
图片: https://uploader.shimo.im/f/OJA3gxtxGhy5ILtD.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE3MDA0NTYxMzQsImZpbGVHVUlEIjoiNWJxbmRXZ0VhTEYyNEdBeSIsImlhdCI6MTcwMDQ1NTgzNCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo4NTQyMDc0N30.ai4CqPGPGK292fMjdQIzaQddKLCjEx8XFc0HDWhtOdQ
CENET-his只考虑历史依赖关系，而CENET-nhis保留非历史依赖关系。两者都采用了对比学习法。CENET-his的性能优于CENET-nhis，因为大多数事件都可以追溯到它们的历史事件，特别是在基于事件的TKGs中。不过，对于CENET-nhis来说，它在一定程度上也有助于事件预测。因此，有必要同时考虑这两种依赖关系。我们删除了sup，只保留Lce作为CENET-Lce的变体。在ICEWS18的情况下，Lce能够获得接近提议的CENET的高结果，而YAGO的结果下降了约7%。这些结果验证了第一阶段在历史对比学习中的积极作用。CENET-w/o-stage-2是另一个变体，它在不训练二元分类器的情况下最小化Lce和Lsup，这自然会放弃基于掩码的推理。这些变化导致ICEWS18和YAGO的Hits@1分别下降1.7%和3.8%。去除历史对比学习的CENET-w/o-CL比上述两种变体的性能差。这些结果证明了我们提出的历史对比学习的意义。至于面具策略。掩码向量是CENET-random-mask中随机生成的布尔向量。cenet -硬掩码和cenet -软掩码是我们提出的两种处理掩码矢量的方法。我们使用测试集中的ground truth生成一个由CENET- gt -mask表示的掩码向量来探索CENET的上界。我们可以看到，未经训练的随机生成掩模向量的模型对预测是适得其反的。
超参数作用：
超参数α旨在平衡Lce和lsup的贡献。在ICEWS18上，α有临界，而在YAGO中，α在比较小的地方比较好，所以最后α设置为0.2；我们可以看到λ的值越高，YAGO上的结果越好，而ICEWS18上的结果越差。因此，λ设为2。
图片: https://uploader.shimo.im/f/FwniApUSqB9KsUuU.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE3MDA0NTYxMzQsImZpbGVHVUlEIjoiNWJxbmRXZ0VhTEYyNEdBeSIsImlhdCI6MTcwMDQ1NTgzNCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo4NTQyMDc0N30.ai4CqPGPGK292fMjdQIzaQddKLCjEx8XFc0HDWhtOdQ