GNN学习 Knowledge Graph Embedding

前面提到的方法都是只有一种边的类型，接下来要扩展到有向，多种边的类型的图上，即异质图(heterogeneous graph)

异质图有这样的几种类型：

Relational GCNs
Knowledge Graphs
Embeddings for KG Completion

一个异质图可以被定义为

\(G=(V,E,R,T)\)

V是带有节点类型的节点\(v_i\in V\)

E是带有关系类型的边\((v_i,r,v_j)\in E\)

T是节点类型\(T(v_i)\)

R是关系类型\(r\in R\)

1.Relational GCNs

RGCN就是把GCN扩展到异质图上

从只有一种边的有向图开始，仅沿着边的方向进行信息的传递

如果一个图有多种关系的类型，那么在信息传递时，我们可以对不同的边的类型使用不同的权重

于是，我们就可以得出RGCN的一般表达

\(h_v^{l+1}=\sigma(\sum_{r\in R}\sum_{u\in N_v^r}\frac1{c_{v,r}}W_r^lh_u^l+W_0^lh_v^l)\)

其中，通过每种关系的节点的度数进行归一化 \(c_{v,r}=|N_v^r|\)

图神经网络可以写成Message+Aggregation的形式

Message:

对于给定关系的所有邻居\(m_{u,r}^l=\frac1{c_{v,r}}W_r^lh_u^l\)
自环传递\(m_v^l=W_0^lh_v^l\)

Aggregation

对邻居和自己传递过来的信息进行求和操作

\(h_v^{l+1}=\sigma(Sum(\{m_{u,r}^l,u\in\{N(v)\cup\{v\}\}\}))\)

RGCN的scalability

每种关系都需要L个权重矩阵\(W_r^1,W_r^2...W_r^L\)

每个权重矩阵的尺寸为\(d^{l+1}\times d^l\)，其中\(d^l\)时第l层的嵌入维度

参数量随关系类的数量迅速增长，容易产生过拟合的问题

有两种方式来正则化权重矩阵

block diagonal matrices
Basis/Dictionary learning

1.block diagonal matrices

使权重矩阵变稀疏，减少非0元素的数量

具体做法是让权重矩阵成为对角块的形式

缺点在于只有相邻神经元可以通过权重矩阵交互，需要多加几层神经网络

2.Basis Learning

在不同关系之间共享权重参数

做法：将特定关系的权重矩阵表示为基础变换的线性组合形式

\(W_r=\sum_{b=1}^Ba_{rb}\cdot V_b\)

\(V_b\)在关系间共享，是基础矩阵

\(a_{rb}\)是\(V_b\)的重要性权重

对于每个关系，我们就只需要学习\(\{a_{rb}\}_{b=1}^B\)这B个标量了，其中B是常数

3.应用实例

1.链接预测

在异质图中，将每种关系对应的边都分成training message edges, training supervision edges, validation edges, test edges四类

这样分是因为有些关系的边很少，混一起分可能有些关系类型的边可能分不到四类

假定\((E,r_3,A)\)是training supervision edge，其余的边是Training message edges

使用RGCN给\((E,r_3,A)\)打分

首先得到最后一层节点E和节点A的输出向量
使用关系专用的打分函数\(f_r:\mathbb{R}^d\times \mathbb{R^d} \rightarrow \mathbb{R}\)
- 比如\(f_{r_1}(h_E,h_A)=h_E^TW_{r_1}h_A,W_{r1}\in \mathbb{R}^{d\times d}\)

1.训练阶段：用training messages edges预测training supervision edges

1.使用RGCN给\((E,r_3,A)\)打分
2.通过扰乱 supervison edge得到negative edge。比如破坏\((E,r_3,A)\)的尾节点得到\((E,r_3,B)\)和\((E,r_3,D)\)，negative edge不能属于training messages edges或training supervision edges
用GNN模型给negative edge打分
优化交叉熵损失函数，使在training supervision edge上的得分最大，negative edge上的得分最低

2.测试阶段

用training messages edges和training supervision edges来预测validation edges，\((E,r_3,D)\)的得分应该比所有的negatives edges的得分更高

negative edges就是尾节点不在training messages edges和training supervision edges中的以E为头节点，\(r_3\)为关系的边

具体步骤：

1.计算\((E,r_3,D)\)的得分

2.计算所有negative edge的得分

3.获得\((E,r_3,D)\)的排名RK

4.计算指标