蛋白质结构预测的研究方法及未来发展趋势

发布时间 2023-06-09 18:12:33作者: 张紫月

蛋白质结构预测的研究方法及未来发展趋势

1. 引言

       蛋白质是生物大分子,在生物体内执行运输分子、响应刺激、为细胞提供结构以及催化代谢反应等基本功能。蛋白质包含通过肽键连接的一条或多条氨基酸残基长链。在自然环境中,蛋白质通常自发折叠成特定的三级结构,其中每个原子在分子的三维空间中占据独特的位置。驱动蛋白质折叠成其天然结构的主要因素是许多非共价残基间相互作用,包括疏水效应、氢键、范德华力和离子键。蛋白质结构的特点是在某些局部区域具有规则的构象形状,这些规则的局部结构称为蛋白质二级结构,其准确预测提供了其三级结构的重要信息[1]

       蛋白质的天然结构可以使用核磁共振,X射线晶体学和低温电子显微镜通过实验确定[2]。与这些结构测定技术相比,蛋白质结构预测方法(即使用计算技术纯粹从蛋白质序列预测蛋白质结构)具有显著优势[3]。纯粹从蛋白质序列预测其结构是可行的,根据Anfinsen定律,结构信息基本上嵌入到蛋白质序列中,即未折叠的蛋白质通常在适当条件下将蛋白质恢复到水性环境时重新折叠到其天然结构[4]

2. 蛋白质结构预测的基本方法

2.1 基于深度学习的结构预测

        人工神经网络是一种模仿动物神经网络行为特征进行分布式并行信息处理的算法数学模型,它利用计算机技术,参考动物大脑神经网络进行信息处理的系统,其核心是数学算法,通过计算机软、硬件而实现[5]

        人工神经网络因具有强大的数据拟合能力,不需要繁杂的手工特征而受到欢迎。近年来,神经网络模型已成功引入到生物信息学的多个任务中,包括蛋白质二级结构预测任务。最早的应用于二级结构预测的神经网络模型是由Qian和Sejnowskit提出的[6],具体原理为:首先构造由函数式连接组成的神经网络,在将已经二级结构的蛋白质序列作为输入,定义优化的函数,并根据优化函数不断的迭代更新参数,直至模型收敛,最终应用训练好的模型预测待测的氨基酸序列的二级结构。

        图1描述了全连接神经网络预测蛋白质二级结构的框架,整个模型包含输入层,隐藏层和输出层三部分,其中输入层用于输入蛋白质序列,在输入前需要把蛋白质序列转换层用数字或向量表示的矩阵,隐藏层的层数及每层隐藏单元的个数都是人为设定,输出层为α螺旋、β折叠、无规则卷曲等二级结构。在训练模型时,当输入已知状态个数的二级结构的氨基酸序列时,输出层的相应神经细胞要输出与二级结构状态个数相符的数值。输入序列X经过神经网络的输入层后进入隐藏层,隐藏层使用sigmoid作为激活函数,隐藏层中每个神经元的输出值可通过以下公式计算得到:

        其中,???为连接输入层中第i个单元和隐藏层中第j个单元的权值,??表示输入的蛋白质序列中第i个氨基酸,q?为激活隐藏层第j个单元的阈值,????为隐藏层第j个单元的得分。

        最终,隐藏层第i个单元的输出值??为:

        式中? = 1,2,3 … , n。

        隐藏层的输出作为输出层的输入,经过softmax分类器,最终得到氨基酸的二级结构预测结果:

        其中k = 1,2,3 … , K。

        神经网络模型具有很强的学习能力,可以有效的从蛋白质序列数据中挖掘出复杂的结构信息和规律,并且不需要繁杂的手工特征,使用方便,预测准确率高。它的缺点是可解释性不强,且有大量的超参数需要调节,训练耗时久[7]

 

图1 用于蛋白质二级结构预测的人工神经网络模型

2.2 AlphaFold进行高度准确的蛋白质结构

       根据蛋白质的氨基酸序列预测蛋白质将采用的3D结构,即“蛋白质折叠问题”[8]的结构预测组成部分,但即使在不知道类似结构的情况下,也可以以原子精度定期预测蛋白质结构。基于神经网络的模型AlphaFold,它将关于蛋白质结构的物理和生物学知识,利用多序列比对,融入深度学习算法的设计中,从蛋白质序列预测蛋白质3D结构的计算方法的发展沿着两条互补的路径前进,分别关注物理相互作用或进化历史。

        AlphaFold通过结合基于蛋白质结构的进化、物理和几何约束的新型神经网络架构和训练程序,极大地提高了结构预测的准确性。AlphaFold网络使用一级氨基酸序列和同源物的比对序列作为输入直接预测给定蛋白质的所有重原子的3D坐标。该网络包括两个主要阶段。首先,网络的主干通过我们称为Evoformer的新型神经网络块的重复层处理输入,以生成Nseq × Nres数组,代表处理后的MSA和Nres × Nre数组表示残基对。网络主干之后是结构模块,该模块以蛋白质每个残基的旋转和平移形式引入显式3D结构。这些表示在一个简单的状态下初始化,所有旋转都设置为身份,所有位置都设置为原点,但可以快速开发和完善具有精确原子细节的高度准确的蛋白质结构。Evoformer的网络构建块的关键原理是将蛋白质结构预测视为3D空间中的图推理问题,其中图的边缘由邻近的残基定义,对表示的元素编码有关残基之间关系的信息,MSA表示的列对输入序列的各个残基进行编码,而行表示这些残基出现的序列[9,10]。通过提供从对表示返回到MSA表示的信息流来关闭循环,确保整个Evoformer块能够完全混合对和MSA表示之间的信息,并为结构模块中的结构生成做准备[11]。目前已有研究利用AlphaFold和相关工具理解来自X射线晶体学和冷冻电镜的实验数据。Orengo的团队使用AlphaFold来识别新的蛋白质种类,并且发现多个潜在的新蛋白质家族,该团队使用从海洋和废水中采集的DNA序列数据库,并鉴别出新食用塑料酶,更好地了解酶如何进化以分解塑料。重新设计的AlphaFold近乎完美地精确预测出了蛋白质三维结构,其预测水准与实验室水平相差无几,一举破解了困扰学界长达五十年之久的“蛋白质折叠”难题。

 

图2 使用AlphaFold进行高度准确的蛋白质结构预测

2.3多结构域蛋白质结构预测

        整体来讲,目前在蛋白质结构预测领域,主要还是集中于单域蛋白预测问题。多域蛋白质预测方法主要分为基于铰链区采样和基于分子刚体对接两类方法。在铰链区采样方法中考虑到多域蛋白质全长肽链连接性的因素,多域蛋白预测问题可以看作是单域蛋白结构折叠过程的一个特例,即保持每个单域结构刚性,通过调整铰链区构象来实现多域组装建模[12]。在分子刚体对接方法中,考虑到结构域间的相互作用和不同蛋白质链之间的相互作用非常相似(尽管在作用机理上完全不同),多域建模可以视为若干刚体结构分子(如蛋白质−蛋白质)的对接过程,可以利用分子对接算法来求解。

        2007年,BAEK提出一种基于铰链区采样的两阶段多域组装方法[13]。在第一阶段,基于Rosetta粗粒度能量模型 (即侧链用质心伪原子代表),采用Monte Carlo (MC)方法对多域蛋白铰链区骨架二面角空间进行片段重组采样,并生成5000个诱饵构象。在第二阶段,首先对第一阶段生成的每个诱饵构象,结合Dunbrack Rotamer侧链库,采用MC协议重建域间接触界面氨基酸的侧链构象;然后基于Rosetta全原子能量模型,通过Rosetta标准的MC方法进行结构精修,主要包括铰链区骨架二面角微调、铰链区和接触面残基侧链组装、铰链区骨架二面角和所有残基侧链拟牛顿几何优化以及Metropolis准则生成测试构象4个步骤。

        2015年,Jaroszewskl提出了基于铰链区采样的多域组装方法AIDA[12]。AIDA方法采用蛋白质三维结构简约表达模型,即每个残基包括4个主链原子和1个代表侧链中心的伪原子,其中侧链中心伪原子的位置根据骨架几何特征估计。在结构域组装过程中,每个结构域作为刚体分子,通过调整铰链区二面角改变多域蛋白的构象2019年,Zhou提出和开发了第一个真正意义上自动化的多域蛋白质组装方法和服务器DEMO[14]。DEMO基于分子对接原理,通过逐域结构比对检测类似模板,进一步根据类似模板的距离谱特征构建域间方位。在包含2~7个连续和不连续结构域的356个多域蛋白测试集上,有86%的连续域测试蛋白和100%不连续域的测试蛋白组装形成了具有正确拓扑结构的全长链折叠模型。在CASP12和CASP13中的多域目标蛋白组装结果也表明,DEMO生成的全长链模型精度显著提升。

3. 蛋白质结构预测的未来发展趋势

       三维蛋白质结构测定对于阐明蛋白质功能、理解生物过程以及解决人类健康和生命科学问题至关重要。由于通过实验方法难以确定蛋白质结构,因此蛋白质结构预测一直是科学界的核心问题之一。AlphaFold的出现使蛋白质的结构预测出现了新的突破,其中AlphaFold2的出现将蛋白质结构预测的问题提升到了另一个层次,在某些情况下达到了类似的实验水平精度。然而,需要改进以克服预测新结构,固有无序区域和环的局限性,仅预测单个没有配体的构象并且其模型中仍然存在不一致的能力,以及无法预测错义突变对蛋白质结构的影响。此外,AlphaFold使得单域蛋白预测的准确度大大提高,但在多结构域蛋白质结构预测方面仍有很大发展空间,因此,蛋白质预测未来的发展方向在于开发更多多结构域蛋白质结构预测的方法,并将其与计算机科学相结合。

 

参考文献

[1] Yang Y, Gao J, Wang J, Heffernan R, Hanson J, Paliwal K, et al. Sixty-five years of the long march in protein secondary structure prediction: the final stretch?Brief Bioinform. 2018; 19:482–94.

[2] Dill KA, MacCallum JL. The protein-folding problem, 50 years on. Science. 2012; 338:1042–6.

[3] Kuhlman B, Bradley P. Advances in protein structure prediction and design. Nat Rev Mol Cell Biol. 2019; 20:681–97

[4] Anfinsen CB. Principles that govern the folding of protein chains. Science. 1973; 181:223–30.

[5] 王祎,贾文雅,尹雪婷,张亮明,白艳明. 人工神经网络的发展及展望[J]. 智能城市,2021,(第8期).

[6] Qian N, Sejnowski TJ. Predicting the Secondary Structure of Globular Proteins Using Neural Network Models. Journal of Molecular Biology. 1988; 202(4): 865-884.

[7] 赵志山. 基于深度学习的蛋白质二级结构预测研究[D]. 哈尔滨工业大学, [2023-06-09].

[8] Tu ZW, Bai X. Auto-context and its application to high-level vision tasks and 3D brain image segmentation. IEEE transactions on pattern analysis and machine intelligence. 2010; 32(10).

[9] Ken A, Dill S, Banu Ozkan M, Scott Shell TR, Weikl. The Protein Folding Problem. Annual Review of Biophysics. 2008; 37.

[10] João C, Pulkit A, Katerina F, Jitendra M. Human Pose Estimation with Iterative Error Feedback. CoRR,2015, abs/1507.06550.

[11] Pearce R, Zhang Y. Deep learning techniques have significantly impacted protein structure prediction and protein design. Current Opinion in Structural Biology. 2021; 68.

[12] Xu D, Jaroszewski L, Li ZW, et al. AIDA: Ab initio domain assembly for automated multi-domain proteinstructure prediction and domain-domain interaction prediction. Bioinformatics. 2015; 31(13): 2098-2105.

[13] Bake M, Dimaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science. 2021; 373(6557): 871-876.

[14] Zhou XG, Hu J, Zhang CX, et al. Assembling multidomain protein structures through analogous global structural alignments. Proceedings of the National Academy of Sciences. 2019; 116(32): 15930-15938.