导读

传统的深度学习技术已经在图像等欧式数据或文本和信号等序列数据上取得巨大的成功。但也有很多领域数据需要用复杂的图结构来表达，这些图结构的数据可以编码复杂的点对关系，以学习更丰富的信息表征；另一面，原始数据（图像或连续文本）的结构和语义信息中纳入特定领域知识可以捕捉数据之间更细粒度的关系。

当GNN用于为随时间演化、多关系和多模态的高度结构化数据建模时，仍然面临许多挑战。要在图和其他高度结构化的数据（如序列、树、图）之间建立映射模型也非常困难。图结构数据面临的一个挑战是，它们的空间局部性和结构不像图像或文本数据那么强。图结构数据自然不适合高度规则化的神经结构，比如CNN和RNN。

图提供了一种强大的抽象，可以用来编码任意类型的数据，如多维数据。

图神经网络概述

图神经网络基础

图神经网络方法

图神经网络是专门设计的用于在图结构数据上进行操作的神经网络架构。图神经网络的目标是通过聚合邻居节点的表征及其在前一次迭代中的表征来迭代更新节点表征。GNN可以进一步划分为有监督的GNN和无监督的GNN。学习到节点表征之后，GNN的一个基本任务就是将节点分类到一些预定义的类别中。在训练GNN时仍面临一个严重的问题——过平滑问题，即所有的节点都有类似的表征。

图神经网络的可扩展性

图的大小可以有大约1亿个节点和10亿条边。因为需要大量的内存，所以大多数GNN方法不能直接应用于这些大规模的图数据结构，即大多数GNN需要在内存中存储整个邻接矩阵和中间层的特征矩阵。有各种策略来应对，比如节点抽样、层抽样、图抽样等。

图神经网络的可解释性

一般来说，GNN的解释结果可以是重要的节点、边，也可以是节点或边的重要特征。

基于白盒近似的方法利用模型内部的信息（如梯度、中间特征和模型参数）来提供解释。

基于黑盒近似的方法则放弃了对复杂模型内部信息的使用，而是利用内在可解释的简单模型（比如线性回归和决策树）来适应复杂模型。

大多数现有的工作很耗时，这就造成处理大规模的图成为瓶颈，需要在不影响解释准确性的情况下开发更有效的方法。

图神经网络的对抗鲁棒性

深度学习模型可以被故意愚弄、逃避、误导和窃取。研究GNN鲁棒性的标准方法是构造输入图数据的一个微小变化，然后观察是否导致预测结果产生较大变化（比如节点分类准确性）。

图神经网络前沿

图分类和链接预测

由于GNN模型中的每一层都只产生节点级表征，因此需要图池化层来进一步计算基于节点级表征的图级特征。图级特征总结了输入图结构的关键特征，是图分类的关键组成部分。图池化层分为：简单的平面池化、基于注意力的池化、基于聚类的池化和其他类型的池化。

另一个长期存在的图学习问题是链接预测任务，其目的是预测任何一对节点之间现在缺失或未来可能形成的链接。由于GNN可以从图结构和辅助信息（比如节点特征和边特征）中共同学习，因此GNN在链接预测方面具有巨大的优势。基于GNN进行链接预测的常见方法有两种——基于节点的方法、基于子图的方法。