基于正则化的图自编码器在推荐算法中的应用 Application of graph auto-encoders based on regularization in recommendation algorithms-526互联

引言

看过的每一篇文章，都是对自己的提高。不积跬步无以至千里，不积小流无以成江海，积少成多，做更好的自己。

本文基于2023年4月6日发表于SCIPEERJ COMPUTER SCIENCE（PEERJ计算机科学）上的一篇名为《基于正则化的图自编码器在推荐算法中的应用》（Application of graph auto-encoders based on regularization in recommendation algorithms）的文章。

本文将基于摘要和部分正文总结一些心得，记录一下自己的学习进程。

需要下载查看这篇论文的同学请登录PubScholar公益学术平台下载查看相关论文。

摘要

Social networking has become a hot topic, in which recommendation algorithms are the most important. Recently, the combination of deep learning and recommendation algorithms has attracted considerable attention. The integration of autoencoders and graph convolutional neural networks, while providing an effective solution to the shortcomings of traditional algorithms, fails to take into account user preferences and risks over-smoothing as the number of encoder layers increases. Therefore, we introduce L1 and L2 regularization techniques and fuse them linearly to address user preferences and over-smoothing. In addition, the presence of a large amount of noisy data in the graph data has an impact on feature extraction. To our best knowledge, most existing models do not account for noise and address the problem of noisy data in graph data. Thus, we introduce the idea of denoising autoencoders into graph autoencoders, which can effectively address the noise problem. We demonstrate the capability of the proposed model on four widely used datasets and experimentally demonstrate that our model is more competitive by improving up to 1.3, 1.4, and 1.2, respectively, on the edge prediction task.

翻译

社交网络已经成为一个热门话题，其中推荐算法是最重要的。近年来，深度学习与推荐算法的结合引起了广泛关注。自动编码器与图卷积神经网络的融合，在有效解决传统算法缺点的同时，未能考虑用户偏好，且随着编码器层数的增加存在过平滑的风险。引入L1和L2正则化技术，并将它们线性融合，以解决用户偏好和过平滑问题。此外，图数据中存在大量噪声数据，对特征提取产生了影响。据我们所知，大多数现有模型都没有考虑噪声，并解决了图数据中的噪声数据问题。因此，将去噪自编码器的思想引入到图自动编码器中，可以有效地解决噪声问题。在四个广泛使用的数据集上展示了所提出模型的能力，并通过实验证明了所提出模型在边缘预测任务上分别提高了1.3、1.4和1.2，更具竞争力。

基于图数据的推荐算法

本文提到，传统的机器学习无法处理复杂的图数据，而深度学习是传统机器学习的改进和拓展，深度学习增强了学习算法的结构，在研究常规和欧几里得数据方面非常有效。但是无法研究非欧几里得数据。为研究非欧几里得数据，研究人员引入图神经网络(GNN)，而现有的模型没有考虑到图数据中很多无用的数据以及很多噪声数据。

注意：欧几里得数据和非欧几里得数据的区别详见知乎-数据域（欧几里得数据与非欧几里得数据）。

正如文章中所说，深度学习和推荐算法的结合引起了相当大的关注，自动编码器和图卷积神经网络的集成为传统的机器学习算法提供了有效解决方案，但是没有考虑到用户偏好以及过度平滑的问题，另外，现在的大多数模型都没有考虑到噪声数据。

据此，文章提出新的解决方案：

为更好地解决平滑度问题并且更好地提取图片数据，文章融合了去噪自动编码器和图形自编码器，添加噪声有助于模型更好地提取有用的数据，以重建用户项目评分矩阵。
为更好地解决用户偏好和过拟合问题，文章引入了L1和L2正则化，

关于L1和L2正交化的详情，可以参考知乎-从0开始机器学习-L1/L2正则化（全）。

文章使用ml-100k、Flixter、Douban和YahooMusic四个数据集进行了实验，验证了可行性和正确性，提出的算法偏差较小。

使用到的技术

图卷积神经网络(GCN)

文章使用了图卷积神经网络(GCN)。GCN可以提取高维图像特征，分为频域GCN和空间域GCN.GCN聚合节点本身和周围相邻节点的信息，已获得下一层节点的节点表示。

二分图

该建议基于用户和项目，假设用户和项目只有评级，没有其他关系，用户和项目形成一个二分图：

图片来自于本篇所读的论文《基于正则化的图自编码器在推荐算法中的应用》（Application of graph auto-encoders based on regularization in recommendation algorithms）。https://peerj.com/articles/cs-1335/

正则化图自动编码器推荐算法

图形自动编码器(GAE)可以实现链路预测任务。GAE的本质是在自动编码器上实现图卷积神经网络。与自动编码器类似，GAE可以重建节点之间的领接关系。

自动编码器是一种人工神经网络，用于无监督学习任务（即，没有类标签或标记数据），例如降维、特征提取和数据压缩。
他们寻求：1 接受一组输入数据（即输入）；2在内部将输入数据压缩为潜在空间表示（即压缩和量化输入的单个向量）；3 从这个潜在表示（即输出）重建输入数据。
参考知乎专栏-自动编码器（AutoEncoder）简介。