[论文精读][基于点云的蛋白-配体亲和力]A Point Cloud-Based Deep Learning Strategy for Protein-Ligand Binding Affinity Prediction

发布时间 2023-10-13 10:47:51作者: 溡沭

我需要的信息

  • 代码论文

  • 不考虑共价键,每个点包括了六种原子信息,包括xyz坐标,范德华半径,原子重量以及来源(1是蛋白质,-1是配体)。原子坐标被标准化,其它参数也被标准化。对不足1024个原子的的复合体,补0到1024。

  • 增加考虑的原子从1024到2048,没有提升,增加原子信息通道,没有提升(见result)

Abstract

  • 基于AI的蛋白质-配体亲和力模型可用于药物发现
  • 本文首次使用PointNet和PointTransformer来做亲和力
  • 有效学习,而且PointTransformer学习到的蛋白配体互作用特征可以适用于XGBoost,在预测任务上和sota水平相当。
  • 结果表明三维点云算法可以有效学习到PDBbind数据集里的自然进化和化学机制等知识

Introduction

以前的方法

  • 分子表述:FPRC, PerSpect, PSH
  • 2D互作用图:DeepBindRG
  • 3D体素:KDeep, AK-Score, DeepAtom
  • 图数据:Graph-CNN, GraphBAR

点云方法

  • 猜想点云方法可以比体素方法更快更简单。
  • 点云中的每个点代表蛋白质配体结构中的一个现有原子,这一显著特征将有助于通过可视化来解释已开发的模型
  • 两种模型的Pearson correlation coefficient都测试了
  • 把输入后的特征给到XGBoost,预测结果和sota的机器学习方法相当。

Methods

Dataset

  • 使用精细化过的PDBbind-2016,包括4057个蛋白-配体复合物数据。3772个数据是训练集和验证集,其他的core set是测试集。
  • 还使用了general的PDBbind-2016,含有肽复合物的被删去,复合物不足的被删去,测试集删去。得到11 327的训练集。
  • 以配体为中心,选取最近的1024个蛋白原子。
  • 不考虑共价键,每个点包括了六种原子信息,包括xyz坐标,范德华半径,原子重量以及来源(1是蛋白质,-1是配体)。原子坐标被标准化,其它参数也被标准化。对不足1024个原子的的复合体,补0到1024。
  • 为调查输入,还做了两个实验:增加原子种类的channels,原子采样从1024增加到2048

Comparison of pre-processing and inference time of different models

使用c++加速点云的生成还和体素的方法进行了时间的比对

PointNet and PointTransformer architecture and training

  • 网络框架大概长这样,然后强调了,原子输入顺序不影响结果因为有我们的Max Pool。这个在pointnet++里也是一样的。

  • 训练的时候把点云翻转了24次,相当于数据集增加了24倍。测试的时候把输入翻转24次,取预测的平均值。

Result

其它result笔者不感兴趣,略