【略读论文|时序知识图谱补全】DREAM: Adaptive Reinforcement Learning based on Attention Mechanism for Temporal Knowledge Graph Reasoning-526互联

会议：SIGIR，时间：2023，学校：苏州大学计算机科学与技术学院，澳大利亚昆士兰布里斯班大学信息技术与电气工程学院，Griffith大学金海岸信息通信技术学院

摘要：

原因：现在的时序知识图谱推理方法无法生成显式推理路径，缺乏可解释性。
方法迁移：由于强化学习 (RL) 用于传统知识图谱上的多跳推理开始在最近的进展中显示出卓越的可解释性和性能，它为探索 TKG 推理上的 RL 技术开辟了机会
性能限制：
1.缺乏联合捕获时间演化和语义依赖的能力
2.过度依赖手动设计的奖励
本文方法：一种基于意图机制 (DREAM) 的自适应强化模型
模型组件：
1.一个多方面的注意力表示学习方法，共同捕获语义依赖和时间演化
2.自适应 RL 框架，通过自适应地学习奖励函数来进行多跳推理

介绍：

推理侧重：外推，下面是外推的一个实例：通过利用历史和语义信息，可以推断出 (COVID-19, Occur, City Hall, 2022-12-6)。

方法迁移原因：RL的多跳推理在传统知识图谱上表现出来很强的性能，启发了可以在TKGR上运用此方法。典型地，TPath[2]、TAgent[48]、TITer[47]和CluSTeR[35]通过利用关系的符号组合和传输来学习多跳可解释路径。例如，通过连接 (COVID-19, Infect, Tom, 2022-12-3)、(Tom,Talk_to, Jack, 2022-12-4) 和 (Jack, Visit, City Hall, 2022-12-5)，基于 RL 的模型可以推理四元组 (COVID-19, Occur, City Hall, 2022-12-6)。
RL方法面临的挑战：
1.如何同时捕捉时间演化和语义依赖还没有被探索：
1）一些基于rl的TKGR方法[2,47,48]无法捕捉时间演化(即历史事件的动态影响)。CluSTeR：利用rnn捕捉有限历史信息，但是可伸缩性差并且需要大量训练数据。
2）现有的基于rl的TKGR方法在很大程度上忽略了语义依赖性。关注与查询关系高度相关的关系有利于减少推理过程中的语义噪声。
3）实体与其相邻实体之间的语义相关性往往与它们之间的距离呈负相关。有必要同时利用时间进化和语义依赖来提高推理性能。
2.上述基于强化学习的方法严重依赖于人工设计的奖励，这容易导致奖励困境稀疏，设计过程费力，性能波动大。
1）稀疏奖励困境。只考虑终端奖励导致的稀疏奖励导致学习缓慢甚至失败
2）设计过程繁琐。经验丰富的专家不断参与设计一些可能提高推理性能的候选辅助奖励，然后仔细选择最优奖励函数。这样的方法泛化性很低
3）性能波动。人工设计的功能难以平衡探索和开发，这必然会导致RL推理性能的波动和决策偏差。
本文的模型：
DREAM（一种基于注意力机制的自适应强化模型）
优势：
1.注意力机制，它比循环方法 [52] 更能将不同的历史信息整合到语义表示中
2.生成式对抗性模仿学习，它从专家演示中自适应地学习策略
本文的模型不仅优雅地捕获了时间演化和语义依赖性，而且还通过具有自适应奖励函数的新型自适应强化学习框架进行多跳推理。
组件1：一种多方面注意表示(MFAR)方法来保留tkg的语义和时间属性。它的关系感知衰减图注意模块从多跳实体和关系中挖掘TKGs的语义依赖性。时间自注意力模块通过灵活加权历史上下文来捕获多个时间步长的演化。
组件2：一个基于生成对抗性模仿学习的自适应强化学习框架（ARLF）。ARLF 的目标是通过在语义规则级别和时间规则级别学习自适应奖励来预测缺失的元素。

模型方法：

模型简介：

基于rl的推理器在向其提供表示后输出推理路径。然后，采样器通过双向采样获得演示路径。然后，鉴别器为推理器产生自适应奖励。最后，该推理器更新推理策略并与TKG交互以完成预测

多方面注意力表征：

现有方法无法同时捕获时间演变和语义依赖，这限制了时间数据的利用。为了解决上述问题，本文引入了一种多面注意力表示方法MFAR。MFAR联合学习多跳邻居的实体特征和关系特征，并通过灵活加权历史事件来捕捉潜在的时间演化。
值得注意的是，在TKGR领域，与现有的表征学习方法的技术差异在于以下两点：
1.本文通过计算多跳邻域内的实体和关系来扩展图注意网络(GAT)，GAT只关注一跳邻域内的实体特征。此外，与传统KG基于关系感知图网络的嵌入方法比较，本文方法不仅引入了一种衰减机制来模拟多跳实体的贡献下降，而且计算代价更低。原理为MFAR通过对关系路径的嵌入求和来直接关联多跳邻居，而不是增加网络层的数量或引入代数空间。
2.本文通过学习注意权值而不是使用不可扩展的循环方法[52]，从更大范围的先前时间戳中捕获推理线索。原理是MFAR将图注意和时间注意解耦为独立的模块，即关系感知衰减图注意力(RAGA)和时间自注意网络(TSAN)。两个模块协同工作，在获得所有实体和关系的静态表示后，RAGA 通过每个时间戳中的衰减机制提取多跳邻域信息。然后，TSAN 捕获远程时间演化并取决于每个实体的历史信息。这种设计模式提高了并行性。

关系感知的衰减图注意力（RAGA）：

原方法：无法利用事件三元组的不同语义。更糟糕的是，现有的方法由于忽略了语义衰减，在推理过程中引入了噪声。
我们的解决方法，提出RAGA。RAGA的输入是\({\mathcal{G}_t(t<t_q)}\)，其包含一组实体表示\({\left\{ e_i\in \mathbb{R} ^D,\forall e_i\in \mathcal{E} \right\}}\)和关系表示\({\left\{ r_i\in \mathbb{R} ^{F\prime},\forall r_i\in \mathcal{R} \right\}}\)。输出是一组新的实体表示\({\left\{ e_{i}^{s}\in \mathbb{R} ^{D^\prime_e},\forall e_i\in \mathcal{E} \right\}}\)维度为\({D^\prime_e}\)，它完全捕获了G?中的语义依赖关系。具体来说，为了获得给定实体\({e_i}\)与其k跳相邻实体之间的直接嵌入，我们随机抽取\({e_i}\)与其k跳相邻实体之间的最短路径，然后通过对该路径中所有关系的嵌入求和来构造一个辅助关系嵌入\({r_m}\)，即\({r_m=r_1+\cdots \cdots +r_k}\)。将给定关系??表示为时间戳G?中与相邻实体之间的?关系，表示如下：
\({r_k=\begin{cases} r& k=1\\ r_m& k>1\\ \end{cases} }\)
其中，k表示关系路径上的跳数，r表示与\({e_i}\)直接邻居实体之间的关系嵌入。
首先，我们通过执行连接得到与实体\({e_i}\)相关的每个三元组的向量表示，这可以模拟给定快照G?中不同关系中实体所扮演的角色的差异。计算过程如下：
\({t_{ikj}=W_1\left[ e_i\oplus r_k\oplus e_j \right] }\)
其中⊕为连接，\({t_{ikj}}\)为给定快照\({\mathcal{G}_t}\)中的三重向量表示，\({e_j}\)表示实体\({e_i}\)在\({\mathcal{G}_t}\)中直接入流邻居或多跳邻居的嵌入。
接下来，为了对给定的实体\({e_i}\)在\({\mathcal{G}_t}\)的k跳邻居实体的距离敏感贡献建模，由于高斯函数的稳定性和简单性，我们定义了一个基于高斯的衰减系数：
\({w_{ij}=\exp \left( -\frac{k^2}{2b^2} \right) }\)
其中b是高斯带宽。衰减系数\({w_{ij}}\)确保更接近\({e_i}\)的实体\({e_j}\)被赋予更高的权重。然后我们使用激活函数LeakyRelu来计算\({\mathcal{G}_t}\)中每隔三元组\({t_{ikj}}\)，用\({\beta_{ikj}}\)表示：
\({\beta_{ikj}=LeakyReLU(W_2t_{ikj})}\)
其中\({W_2}\)是一个线性变换矩阵。
然后，我们进一步计算\({\mathcal{G}_t}\)中每个三元组的衰减注意力权值的\({\alpha_{ikj}}\):
\({\alpha _{ikj}=\frac{\exp \left( w_{ij}\beta _{ikj} \right)}{\sum_{n\in \mathcal{N} _i}{\sum_{r\in \mathcal{R} _{in}}{\exp \left( w_{in}\beta _{irn} \right)}}}}\)
其中\({\mathcal{N}_i}\)表示实体\({e_i}\)的直接和多跳邻居，\({\mathcal{R}}\)表示实体\({e_i}\)的直接入流关系和多跳关系。
基于多头注意力机制，提高了学习过程的稳定性，我们最终更新了实体\({e_i}\)的新嵌入，该嵌入是实体\({\alpha_{ikj}}\)和\({t_{ikj}}\)之间乘积的加权和：
\({e_{i}^{s}=\left\| _{m=1}^{M} \right. \sigma \left( \sum_{j\in \mathcal{N} _i}{\sum_{k\in \mathcal{R} _{ij}}{\alpha _{ikj}^{m}t_{ikj}^{m}}} \right)}\)
其中，?表示最大注意头数，∥表示连接。\({e_{i}^{s}}\)是捕获时间戳\({G_t}\)中实体\({e_i}\)的语义依赖关系的实体嵌入。

时间自注意力网络（TSAN）：

现有方法：多采用递归网络对历史特征进行聚合，存在信息丢失和计算效率低的问题。
TSAN：一个时间自注意网络。输入：定义为一系列表示\({\left\{ e_{i}^{s1},e_{i}^{s2},\cdots \cdots ,e_{i}^{s\left( t-1 \right)},e_{i}^{st} \right\}}\)，对于时间戳t的特定实体\({e_i}\)，其中维度D的\({e_s}\)已经充分捕获了RAGA中的语义依赖性。输出：一个新的表示序列\({\left\{ z_{1}^{ei},z_{2}^{ei},\cdots \cdots ,z_{t-1}^{ei},z_{t}^{ei} \right\}}\)，对于不同时间戳的实体\({e_i}\)，\({z\in\mathbb{R}^{F^\prime}}\)。形式上，通过跨时间戳t打包在一起，输入输出分别表示为\({X^s\in\mathbb{R}^{t\times D^\prime}}\)和\({Z^{e_i}_t\in\mathbb{R}^{t\times F^\prime}}\)。从技术上讲，TSAN的自关注计算历史事件之间的相似性，以捕捉时间演变。具体来说，查询Q、键K和值V被视为输入实体表示。Q、K和V∈\({\mathbb{R}^{D^\prime\times F^\prime}}\)具有相同的形状，分别使用线性投影矩阵W?、W?、W?来转换查询、键和值。TSAN允许每个时间戳t参与到所有时间戳t，这保留了自回归特性。首先通过计算点积对时间演化的相关性进行建模，然后应用softmax函数获得时间关注值。接下来，时间戳?之前的实体的新嵌入是由它们的时间关注值加权的每个表示的总和。上述过程定义如下:
\({Z=\left( X^sW_v \right) Soft\max \left( \left( X^sW_q \right) ^T\left( X^sW_k \right) \right)}\)
最后，我们采用\({M^\prime}\)个注意头，组成实体\({e_i}\)的多头表示：
\({Z_{t}^{e_i}=\left[ Z_1\oplus Z_2\oplus \cdots \oplus Z_{M^{\prime}} \right]}\)
其中?'是注意力头的最大数量。TSAN的输出由多头注意机制更新。注意，RAGA生成的实体的语义表示被馈送到TSAN模块中以学习时态信息。在此基础上，MFAR同时捕获时间演化和语义依赖。

自适应强化学习（ARLF）：

一种新的自适应强化学习框架(ARLF)
ARLF的创新之处：
1.对于不同的TKG数据集，ARLF利用生成式对抗网络通过模仿演示路径自适应学习奖励，稳定了推理性能，减少了人工干预
2.ARLF不仅在生成式对抗网络中引入了语义和时间知识，而且明确地对TKGR中网络的训练过程进行了建模。
模块组成：
1.基于rl的推理器
2.时间约束的演示采样器
3.规则感知鉴别器
执行过程如下：
1.推理器首先利用代理输出关于缺失元素的各种生成路径
2.一个时间约束的演示采样器同时选择先验和后验邻居来生成高质量的演示路径
3.规则感知鉴别器从语义和时间规则级别区分这些路径
4.为了从规则感知识别器获得更多的自适应奖励，推理器试图通过模仿演示来生成路径来欺骗规则感知识别器

基于rl的推理器：

基于rl的推理器将推理过程视为MDP，其目标是选择一系列最优动作并更新其推理策略(即缺失元素的预测)。推理器通过MDP (State, Action, Transition, Reward)的4个元组来训练agent与tkg进行交互。
State：状态由一些描述当地环境的TKG元素组成。每个状态\({s_l=(e_l,t_l,e_s,t_q,r_q)\in S}\)其中(\({e_l}\), \({t_l}\))表示当前推理步骤1的实体和时间戳，(\({e_s}\),\({t_q}\), \({r_q}\))对应原始查询在所有步骤中保持固定的实体、时间戳和关系。状态空间扫描被视为一组可用状态。初始状态为(??，??，??，??，??)，因为基于rl的代理从四重查询的\({e_s}\)开始。考虑到实体随时间的不断演化，在状态表示中采用了多头注意力表示。因此，\({Z_{t_l}^{e_l}}\)表示时间戳\({t_l}\)处实体\({e_l}\)的表示。此外，我们使用\({Z_{t_q-1}^{e_s}}\)来近似未来时间戳??处实体??的多面表示，因为??在推理过程中实际上是不可观察的。
Action：给定的步骤l的行动空间\({A_l}\)被指定为：\({A_l=\left\{ \left( r^{\prime},e^{\prime},t^{\prime} \right) |\left( e_l,r^{\prime},e^{\prime},t^{\prime} \right) \in \mathcal{A} ,t^{\prime}\leqslant t_l,t^{\prime}\leqslant t_q \right\}}\)此外，我们为每个行动空间添加了一个自环路边。当推理展开到最大推理步骤?时，自环路的作用类似于停止动作，这避免了在推理过程中无限展开。
Transition：新状态\({s_{l+1}}\)由之前的状态\({s_l}\)和动作\({A_l}\)更新。在形式上，\({\mathcal{P}_r:\mathcal{S}\times \mathcal{A}\rightarrow \mathcal{S}}\)被定义为\({\mathcal{P}_r(s_l,A_l)=s_{l+1}=(e_{l+1},t_{l+1},e_q,t_q,r_q)}\)，其中\({\mathcal{P}_r}\)是转换函数。
Reward：我们定义了一个粗粒度的终端奖励来引导智能体选择一个基本策略，使其在初始训练时能够接近目标实体\({e_d}\)。这个奖励是所有强化学习方法的基本奖励范例。如果目标实体是基础真值\({e_d}\)，则终端奖励??设置为1。否则，终端奖励值为0。
Policy Network：推理器的目标是学习一个策略网络，该网络驱动上述4元组MDP和tkg之间的交互。与单跳推理方法不同，多跳推理方法保留推理历史。形式上，推理历史\({h_l}\)由访问的元素序列组成，即\({(e_s,t_q),r_1,(e_1,t_1),\cdots,r_l,(e_l,t_l)}\)。我们定义了一个改进的路径表示P，将关系嵌入和实体嵌入\({P_l=[R_l\oplus Z^{e_l}_{t_l}]}\)，将\({r_l\in \mathbb{R}^{F^\prime}}\)塑造成\({R_l\in\mathbb{R}^{1\times F^\prime}}\)。\({h_l}\)的历史嵌入可以使用长短期记忆(LSTM)进行编码。\({H_l=LSTM([H_{l-1}\oplus P_{l-1}])}\)
基于此，计算动作空间概率分布的策略网络可以定义为:\({\pi _{\theta}\left( \alpha _l|s_l \right) =\sigma \left( A_l\left( W^{''}\mathrm{Re}Lu\left( W^{\prime}\left[ Z_{t_l}^{e_l}\oplus H_l\oplus R_q \right] \right) \right) \right)}\)其中\({\mathcal{A}_l}\)通过叠加所有动作的嵌入被编码为\({A_l}\)，而\({\sigma}\)在动作空间\({\mathcal{A}_l}\)中最大化下一个动作的概率的softmax算子。

时间限制演示采样器：

目的：提取高质量的演示(专家路径)，考虑到TKGs的时间属性
具体来说，我们使用双向宽度优先搜索(Bi-BFS)来探索每个事实\({e_s}\)和\({e_d}\)之间的最短路径作为演示。这是因为最短关系路径的组合可以准确地表示两个实体之间的语义链接。但是传统的Bi-BFS是对先验邻居和后验邻居进行统一采样，这可能会意外地探索超出推理时间范围的邻居。为了解决上述问题，我们设计了一个指数加权机制，指数加权机制的抽样概率定义为：
\({\mathcal{P}(e_i,r_i,e_j,t^\prime)=\frac{exp(t^\prime-t)}{\sum_{\left( e_i,r_l,e_k,t^{''} \right) \in \mathcal{N} _q}{\exp \left( t^{''}-t \right)}}}\)
其中\({\mathcal{N}_q}\)是\({e_i}\)的先验邻居。\({t^{''}}\)和\({t^\prime}\)优先于t。本质上，使用指数加权，在采样期间，时间戳更接近t的先前实体将被分配更高的概率。

规则感知鉴别器：

原理：分别从语义和时间逻辑层面对推理器和演示器获得的生成路径进行评估。
语义鉴别器：
为了在语义层面区分演示路径和生成路径的差异，鉴别器首先采用策略网络中提到的路径拼接来学习路径的表示P。受卷积神经网络在提取KGs[42]语义特征方面的有效性的ConvKB的启发，我们通过滑动核w来使用卷积层提取嵌入P的语义特征：
\({D\left( s \right) =\sigma \left( W_s\left( \mathrm{Re}Lu\left( Conv\left( P,w \right) +b_s \right) \right) \right)}\)
其中b?表示一个偏置项，sigmoid函数在区间(0,1)上输出路径语义特征?(?)。
时间逻辑鉴别器：
为了提高路径的透明度和可信度，时间规则判别器进一步从TKGs中学习时间逻辑规则，使推理器可以直接模仿时间约束演示中隐含的时间逻辑。时间逻辑规则Rt定义为：
\({\varLambda _{i=1}^{l}\left( E_i,r_i,E_{i+1},T_i \right) \Longrightarrow \left( E_1,r_h,E_{l+1},T_{l+1} \right)}\)
其中∧为逻辑合并，\({T_1<T_2<\cdots <T_l<T_{l+1}}\)。Rt的右侧称为规则头，\({r_h}\)表示头关系。另外，Rt的左侧是一个规则体，其由原子四重体\({\left( e_s,r_1,e_2,t_1 \right) \land \cdots \land \left( e_i,r_i,e_{i+1},t_i \right) \land \cdots \land \left( e_l,r_{l-1},e_{l-1},t_{l-1} \right) \land \left( e_{l-1},r_l,e_l,t_l \right)}\)，我们用\({Q_1,\cdots,Q_l}\)表示上述四组，其中\({Q_h}\)表示规则头。
为了增加隐藏在路径中的时间规则的合理性，我们采用了t范数模糊逻辑[17]，它引入了一个规则的真测度作为规则主体中真测度的组合。为了得到四元组的真值测度\({I(Q_i)}\)，我们首先得到关系和实体的连接嵌入，然后使用多层神经网络作为特征提取器，其表示如下:\({I\left( Q_i \right) =\sigma \left( W_r\tanh \left( \left[ Z_{t_i}^{e_i}\oplus R_i\oplus Z_{t_i}^{e_{i+1}} \right] \right) \right)}\)。在此基础上，我们利用t范数模糊逻辑来表述路径的时间逻辑特征如下：\({D(r)=I(Q_1)\cdot…\cdot I(Q_l)\cdot I(Q_h)-I(Q_1)\cdot…\cdot I(Q_l)+1}\)

训练：

我们首先引入均匀分布的路径噪声\({D^N(s)}\)和逻辑噪声\({D^N(r)}\)，丢弃基于rl推理器获得的低质量路径，并从语义和时间逻辑层面获得自适应奖励：
\({R_s=\max \left( D^G\left( s \right) -D^N\left( s \right) ,0 \right)}\)
\({R_r=\max \left( D^G\left( r \right) -D^N\left( r \right) ,0 \right)}\)
其中\({D^G(s)}\)和\({D^G(r)}\)为基于rl的推理器获得的推理路径的语义特征和时间逻辑特征。Rs和Rr分别代表语义奖励和时间逻辑奖励。接下来，我们定义状态\({s_l}\)下的自适应奖励\({R(s_l)}\)如下:\({R(s_l)=R_t+\alpha R_s+(1-\alpha)R_r}\)其中，\({\alpha}\)是权衡??和??的平衡因子。需要注意的是，智能体可以在每个推理步骤中通过模仿语义和规则两个层次的演示来获得自适应奖励，这消除了稀疏奖励并确保了性能稳定性。此外，ARLF通过自动从不同路径中挖掘共同元知识，提高了泛化能力，避免了不同数据集的决策偏差。
然后，我们通过减少训练损失来优化语义和时间逻辑鉴别器，从而提高模仿学习的有效性，接下来定义一个损失函数：
\({\mathcal{L} _p=D^G\left( s \right) -D^D\left( s \right) +\lambda \left( \left\| \triangledown _{\hat{p}}D\left( \hat{p} \right) \right\| _2-1 \right) ^2}\)
其中，\({\lambda}\)是惩罚项，\({\hat{p}}\)沿着生成路径和专家演示之间的直线均匀采样。\({D^G(s)}\)和\({D^D(s)}\)分别是从生成的路径和专家演示中提取的语义特征。对于时序逻辑鉴别器，我们定义损耗如下：\({\mathcal{L} _r=-\log \left( D^D\left( r \right) +\log \left( 1-D^G\left( r \right) \right) \right)}\)其中\({D^G(r)}\)和\({D^D(r)}\)分别为从生成路径和专家论证中提取的时间逻辑特征。
最后，为使自适应强化学习的累计奖励最大化，获得最优策略，目标函数为：\({\mathcal{J} \left( \theta \right) =\mathbb{E} _{\left( e_s,r_q,e_d,t_q \right)}\mathbb{E} _{a_1,\cdots ,a_L~\pi _{\theta}}\left[ R\left( s_l|e_s,r_q,t_q \right) \right]}\)

实验：

数据集：ICEWS14, ICEWS18, ICEWS05-15和GDELT

评价指标：MRR和Hits@N，采用了更合理的时间感知滤波设置
基线模型：插值的TKGR模型包括TA-DistMult[13]和TNTComplEx[25]。此外，我们将我们的模型与外推TKGR研究的最新模型进行了比较，包括非基于rl的模型TANGO[19]、XERTE[18]、CyGNet[75]、REGCN[36]、RE-NET[24]、TLogic[39]和Hismatch[34]。最后，将基于rl的外推TKGR方法设置为第三组基线，包括Tpath[2]、TAgent[48]、TITer[47]和CluSTer[35]。
实现细节：
设置维度D和\({F^\prime}\)的值为200，\({\lambda}\)在所有数据集中为5。注意头的数量?和?'在不同的数据集上都是8。对于模型训练，最大训练历元和卷积核的大小分别为400和3×5。关于奖励平衡因子的影响，最大推理步长?和高斯带宽?的详细讨论将在敏感性分析小节中显示

详细结果：

1.外推TKGR模型总体上优于第一组内插TKGR基线。我们认为，出现这一结果是因为内插的TKGR模型忽略了时间历史对预测未来事件的重要性
2.本文提出的模型在所有情况下都优于第二组外推基线。这是因为DREAM通过同时捕获时间演化和语义依赖来获得多面表示。此外，基于rl的DREAM可以利用最优推理策略，在不同推理线索之间进行多步推理，最终得到正确的目标。
3.与目前基于rl的TKGR方法相比，本文的模型在ICEWS05-15数据集上的性能提升更为明显。
4.由于实体是抽象概念，所有模型在GDELT上的推理性能普遍较低，但本文的模型仍然保持有竞争力的性能。这是因为DREAM捕获多面表示，以适应具有最细粒度时间粒度[34]的GDELT上频繁变化的历史事实。

消融实验：

1.w/o MFAR仅利用静态表示，MRR值远低于DREAM，验证了同时捕获时间演化和语义依赖的必要性
2.w/o RAGA只考虑时间注意，这导致在稀疏数据集(即ICEWS05-15)上推理性能相对显著下降
3.w/o TSAN只考虑语义依赖，在所有数据集上的性能下降都在5%以上，证明了TSAN在提高TKGs推理性能方面的有效性。原因如下：首先，事件间时间演化的客观存在是提高TKG推理性能的理论基础。其次，时间间隔不超过60的查询相关实体在ICEWS子集和GDELT上分别占92%和83%。序列长度的这个比例确保了自关注机制在现有基准数据集上的技术有效性。
4.w/o ARLF删除了ARLF，只保留了具有基本终端奖励的基于rl的推理器。所有数据集上的性能仍然下降，这代表奖励机制很重要。

收敛性分析：

我们通过在DREAM中删除自适应奖励和添加人工奖励，设计了4个变量(DR-TP、DR-TA、DR-TI和DR-CL)。DR-TA的奖励只包括二进制终端奖励，而DR-TP额外增加了路径多样性奖励；DR-CL和DR-TI分别添加CluSTer[35]的束级奖励和TITer[47]的时形奖励。最终结果如上图所示，可以看出采用自适应奖励的DREAM算法在不同的TKG数据集上收敛速度最快，性能最稳定。
DR-TA受到稀疏奖励的影响，因此收敛结果是最差的。此外，由于人为设计多样性奖励造成的盲目探索，DR-TP在不同数据集上的波动也很明显。DR-CL和DR-TI虽然收敛速度较慢，但其性能不稳定，在所有数据集上的泛化性较低。

超参数（敏感性）分析：

我们研究了模型对高斯带宽?值、最大推理步长?以及图4中的奖励平衡因子时延的敏感性。带宽值与衰减权值呈负相关关系。当?的值超过最优值时，MRR的值在所有数据集上都相对稳定。这是因为高斯核的局部影响范围与带宽值呈正相关。
当跳数超过3次时，DREAM的性能相对下降，这与现有基于rl的TKGR研究结果一致。一个合理的解释是，超过3跳的信息中包含更多的噪声会对推理性能产生负面影响。
如上图所示，在数据集ICEWS14、ICEWS05-15、ICEWS18和GDELT上，最优平衡因子分别为0.5、0.6、0.6和0.4。当时间粒度相同时，数据集规模与语义层面的自适应奖励呈正相关。