526互联

[论文精读][基于点云的蛋白-配体亲和力]A Point Cloud-Based Deep Learning Strategy for Protein-Ligand Binding Affinity Prediction

发布时间 2023-10-13 10:47:51作者: 溡沭

我需要的信息

代码，论文
不考虑共价键，每个点包括了六种原子信息，包括xyz坐标，范德华半径，原子重量以及来源（1是蛋白质，-1是配体）。原子坐标被标准化，其它参数也被标准化。对不足1024个原子的的复合体，补0到1024。
增加考虑的原子从1024到2048，没有提升，增加原子信息通道，没有提升（见result）

Abstract

基于AI的蛋白质-配体亲和力模型可用于药物发现
本文首次使用PointNet和PointTransformer来做亲和力
有效学习，而且PointTransformer学习到的蛋白配体互作用特征可以适用于XGBoost，在预测任务上和sota水平相当。
结果表明三维点云算法可以有效学习到PDBbind数据集里的自然进化和化学机制等知识

Introduction

以前的方法

分子表述：FPRC, PerSpect, PSH
2D互作用图：DeepBindRG
3D体素：KDeep, AK-Score, DeepAtom
图数据：Graph-CNN, GraphBAR

点云方法

猜想点云方法可以比体素方法更快更简单。
点云中的每个点代表蛋白质配体结构中的一个现有原子，这一显著特征将有助于通过可视化来解释已开发的模型
两种模型的Pearson correlation coefficient都测试了
把输入后的特征给到XGBoost，预测结果和sota的机器学习方法相当。

Methods

Dataset

使用精细化过的PDBbind-2016，包括4057个蛋白-配体复合物数据。3772个数据是训练集和验证集，其他的core set是测试集。
还使用了general的PDBbind-2016，含有肽复合物的被删去，复合物不足的被删去，测试集删去。得到11 327的训练集。
以配体为中心，选取最近的1024个蛋白原子。
不考虑共价键，每个点包括了六种原子信息，包括xyz坐标，范德华半径，原子重量以及来源（1是蛋白质，-1是配体）。原子坐标被标准化，其它参数也被标准化。对不足1024个原子的的复合体，补0到1024。
为调查输入，还做了两个实验：增加原子种类的channels，原子采样从1024增加到2048

Comparison of pre-processing and inference time of different models

使用c++加速点云的生成还和体素的方法进行了时间的比对

PointNet and PointTransformer architecture and training

网络框架大概长这样，然后强调了，原子输入顺序不影响结果因为有我们的Max Pool。这个在pointnet++里也是一样的。
训练的时候把点云翻转了24次，相当于数据集增加了24倍。测试的时候把输入翻转24次，取预测的平均值。

Result

其它result笔者不感兴趣，略

亲和力protein-ligand cloud-based prediction

convolutions transformer prediction versatile

interaction prediction eulernet adaptive

亲和力affinity

addressing continuous prediction feedback

prediction sketching networks subgraph