蛋白质结构生物信息学-526互联

蛋白质结构生物信息学

参与人员：张航22020080140 白艳梅22020080001 徐旭22020080135 张章晟22020080144

摘要：蛋白质结构生物信息学有很多功能，可以进行蛋白质建模、蛋白质对接、蛋白质分子动力学和蛋白质相互作用。本博文简要介绍了蛋白质结构生物信息学的主要领域，讨论并指出了几种在线资源，如方法、数据库和工具，以便对该领域的研究进行概述。

1前言

生物信息学是一个通过计算机科学的模型和算法寻找生物数据（生物分子）的研究领域。它包括数据的收集、存储、检索、操作和建模，通过开发算法和策略进行分析、可视化或预测。生物信息学也可以通过物理、化学、统计和数学的知识来解决生物问题，从而促进所涉及的各个领域的发展。

我们学习小组对蛋白质结构生物信息学特别感兴趣。结构生物信息学包括用于研究、分析、预测和解释生物大分子结构的数据资源、算法和工具。蛋白质是相对复杂的大分子，在自然界的生物中起着至关重要的作用。它能够在细胞中执行结构、催化、运输和防御等功能。蛋白质由氨基酸结合而成，可以有不同的大小和形状。蛋白质在细胞中完成了大量的工作，在生物体中对组织和器官的结构、功能和调节都是必需的。目前，越来越多的蛋白质结构和序列存储在专门的数据库中，这主要是由于基因组测序技术和确定结构方法的进步。最初，关于蛋白质的信息是根据它们的氨基酸序列获得的。2021年是蛋白质数据库(PDB)成立50周年，该数据库收录了迄今为止我们所知道的所有大分子结构。结构生物信息学的主要目标:创建处理生物大分子信息的通用方法和应用这些方法解决生物学问题，以产生新的知识。近年来，不断增长的生物数据量需要具有伸缩和数据驱动能力的生物信息学模型、算法和工具。我们学习小组将讨论分子对接、结构预测以及数据库。对于每一个蛋白质结构领域，我们会先给出了一个简单的介绍，然后是目前广泛使用的工具。对于每一种工具，我们学习小组论述了它是如何工作、所提出的算法以及这个工具与其他工具对比的优缺点。

2 分子对接

我们学习小组展示了一些现在常用的用于对接的工具。对于蛋白质-配体，我们描述了GOLD, AutoDock Vina和SwissDock，对于蛋白质-蛋白质，我们介绍了 pepATTRACT, 和ZDOCK，以及混合工具HADDOCK(它可以用来执行蛋白质-配体和蛋白质-蛋白质对接)。由于所涉及结构的复杂性不同，这两种工具之间的区别是很明显的。配体是小分子，比蛋白质有更多的平移、旋转和扭转自由，而蛋白质的运动受到明确定义的三级结构的限制。在对接所涉及结构的差异下，亲和性预测和排名的评分函数会根据不同的场景开发出不同的评分函数。分子对接技术被广泛应用于分子间相互作用的预测。重要的是对接分析通常被用作更复杂模拟的初始步骤，如分子动力学和元动力学。由于这是在真空中进行的模拟，分子运动受到限制，其结果可能不能精确地代表现实，由于预测交互关键评估(CAPRI)的倡议，方法的质量随着时间的推移而提高，CAPRI对对接技术进行了独立的评估。其主要目标是验证蛋白质-蛋白质对接实验确定的复合物的质量，以预测三维结构。

蛋白质分子对接主要是指蛋白质与配体或蛋白质之间相互作用。该技术目前已得到广泛应用。它包括计算分子与受体形成稳定复合物时假定的最佳方向。它由两个基本部分组成:采样算法和评分函数。采样算法的目的是在限定的模拟框内生成配体排列的不同位姿。这些算法基本上可以分为两类:系统搜索和随机搜索。这些算法尽可能地探索所有允许模拟的空间，具有高度的自由度。系统搜索是一种典型的对接方法，其主要目标是找到蛋白质的结合位点。而另一种则是细化搜索，例如，通过遗传算法，可能不会探索所有允许的模拟空间。它通常被用作本地对接，当绑定位点是已经确切知道或在盲对接步骤之后。它在后续的生成在很大程度上受到模拟空间和分子灵活性的影响。评分函数是对接技术的另一个基本组成部分，其目的是对采样算法获得的构象进行排序，并预测两个组成部分之间的结合亲和力。评分函数可以分为三种:经验型、力场型和知识型。经验函数通过添加重要的联系项来估计亲和度，这些项的值之前已经确定。力场模型通过计算具有特定力场的参数来估计亲和度，基于知识的方法应用机器学习预测亲和度。

2.1 GOLD

GOLD是为蛋白质配体自动对接开发的第一个软件。这个网站探索了配体的完全灵活性和接近其活性位点的蛋白质部分。它使用遗传算法将配体与蛋白质结合位点匹配，修改其位置、方向和构象。近几年，GOLD进行了很多改进，其中之一就是积分函数，它现在由四个配体能量参数组成:内外范德华、外氢键和内扭转，也可加入另一种组分，即内部氢键。其优点:靠近蛋白质活性部位的部分柔韧性、经常改进、内部氢键作为参数。缺点：仅支持蛋白质配体对接、网站：https://www.ccdc.cam.ac.uk/solutions/csd-discovery/Components/Gold/

2.2 AutoDock Vina

AutoDock Vina是一个广泛用于学术研究的免费对接程序，其设计在绑定预测方面比其前辈AutoDock4更快、更准确。它还具有自动计算网格地图并为用户生成清晰输出的优点。网格地图是一组有规律间隔的点，用于在对接计算中分割感兴趣的区域。该定位算法基于迭代局部搜索全局优化算法，是随机全局和局部优化方法的结合。利用经验积分函数对配体的位置、方向、扭转和可旋转键的导数进行梯度优化。其优点为：开放资源、梯度优化法、自动计算网格地图、缺点如下图所示，缺乏图形用户界面。该程序可以从http://vina.scripps.edu/download.html下载

2.3 SwissDock

SwissDock是一个蛋白质配体对接平台，具有友好的用户界面，这使得该工具更易于用于分子模拟和编程的非专家人员。这个平台不需要用户提供大量的计算资源。SwissDock与EADock DSS引擎协同工作，实现盲对接和本地对接四个步骤，涉及到力场的进化算法和能量计算。该工具的局限性是对仿真参数的限制控制以及仅支持蛋白质配体对接。下图显示了该工具结果页面的一个示例。

网站：http: //www.swissdock.ch

2.4 pepATTRACT

peptract是一种盲肽-蛋白质对接网络服务。它不需要任何关于蛋白质结合位点和肽结构的信息。首先通过与肽的三种最可能的构象进行刚性对接，利用ATTRACT算法确定假定的结合位点。然后，细化与局部对接是在两个步骤中进行的，这允许极大的肽灵活性探索尽可能多的构象。首先使用iATTRACT，然后使用AMBER实现分子动力学阶段。这种改进大约需要18个小时的运行时间，而且即使有可能，软件也没有与GPU集成，我们学习小组认为这是一个限制。

网站：https://bioserv.rpbs.univ-paris-diderot.fr/services/pepATT RACT/

2.5 ZDOCK

ZDOCK服务器是一个对用户十分友好的用于蛋白质-蛋白质对接的网络平台，允许编辑评分参数的功能和显示输入输出可视化的功能。该过程分为三个步骤:(1)输入，可以从结构或PDB id的上传进行;(2)选择接触或堵塞残留物;(3)用JMol可视化计算和结果。然而，该平台允许用户下载结果并在其他分析软件中使用它们，ZDOCK的运行时间大约为11.5分钟。它的不足主要在于没有聚类、不包括后处理分析。

网站：http://zdock.umassmed.edu

2.6 HADDOCK

HADDOCK是一个开放的网络服务器。用户可以进行蛋白质-蛋白质和蛋白-配体对接，可以使用多种分子作为输入，包括环肽和聚糖。该平台允许用两个分子到20个分子进行对接计算。它有许多界面，从Easy层到Guru层，允许不同级别的用户控制模拟参数。Easy层是最基本的，这解释了它的局限性。用户可以上传两个结构，定义活动残基和非活动残基，并通过应用默认参数提交平台进行对接计算。Guru层可以获得完全的访问和控制，用户可以修改500多个参数。其缺点主要是新用户的控制受限。

网站：https://wenmr.science.uu.nl/haddock2

3 结构预测

近年来，已知蛋白质序列的数量呈指数增长，在UniProtKB数据库中存储了约1.5亿个条目。然而，仅凭序列信息还不足以了解蛋白质的功能，所以蛋白质结构信息是这一任务的关键。由于实验确定的内在困难和昂贵的性质，序列信息和结构信息的增长率之间存在差距。蛋白质结构预测的核心是假设蛋白质的自然状态是自由能最低的状态。因此，蛋白质结构预测的方法将可能构象的采样与通过能量函数对这些构象进行排序相结合，目的是找到最低的能态。预测蛋白质结构的方法可以分为两种:基于模板的和无模板的方法。我们学习小组也主要从这两个方法对蛋白质结构预测进行学习，在预测一个蛋白质氨基酸序列的结构时，如果PDB中已经确定了相关的结构，基于模板的方法可以将这些结构作为实例对目标序列进行建模。如果没有找到相关的蛋白质，无模板方法尝试直接从蛋白质序列预测蛋白质结构，使用能量函数结合构象采样。除了蛋白质结构，与这些蛋白质相互作用的配体的设计对于预测活性和变构区域的结合是至关重要的。因此，已经开发了一些软件来生成小分子的最佳结构构象。

3.1 基于模板的建模

这类方法使用与目标蛋白具有高度序列一致性的例子来预测3D蛋白质模型。当查询与蛋白质示例共享至少30%的序列一致性时，这种方法是有效的。一般来说，基于标准模板的建模步骤包括选择合适的结构模板，将查询序列与模板比对，并根据目标-模板比对结果组装三维蛋白质模型。

3.1.1. SWISS-MODEL

SWISS-MODEL是一个基于web的建模系统，用于建立基于同源性建模的蛋白质结构模型。该方法的目的是建立一个三维蛋白质结构模型，使用实验确定的模板结构与目标序列共享前面的模板。首先，目标蛋白作为输入，其序列作为查询，查找SWISS-MODEL模板库SMTL中包含的进化相关蛋白[123]。然后，将模板对准目标序列，验证模板是否能够表示构象状态或覆盖查询蛋白质的不同位置。最后，对每个选定的模板生成三维蛋白质模型，根据目标-模板比对传递守恒的原子坐标[101]。图S6显示了SWISS-MODEL结果页面。使用3D查看器可以分析不同的模板结构。

3.1.2 Modeller

Modeler还使用具有相同序列的结构来建模蛋白质结构。Modeler的输入是查询序列与其各自模板的对齐文件、模板的原子坐标和一个脚本文件。Modeler利用空间约束的满足度来进行比较蛋白质结构建模。这些空间限制包括立体化学限制，如键长和键角，查询序列的距离和二面角限制，以及从实验蛋白质结构中获得的角度和原子间距离的统计知识。将空间约束组合成目标函数进行优化。

具体的操作流程如下所示：（1）准备目的蛋白序列文件，教程中的输入文件里有这个，只需修改序列为自己的目的蛋白序列即可，特别的是序列后要加一个星号；

（2）准备template蛋白结构文件及序列比对。这里以TvMDH 为模板，执行align2d.py，先把1bdm.pdb放到工作目录下。打开modeller命令窗口，进入到工作目录，输入align2.py即可。

3.2 无模板建模

要找到与目标序列相同的结构模板有时是不太可能的。由于缺乏结构模板，这些方法需要构象采样和排序标准，通过这些标准可以选择接近原生的构象作为候选。无模板建模方法的基础是热力学假设，该假设认为自然状态是自由能最低的状态。因此，蛋白质结构预测方法结合对备选构象的采样和评分函数，对采样的构象进行排序，并识别能量最低的状态。对构象空间的探索是由搜索算法引导的，这些算法通过能源景观导航到接近原生构象。

3.2.1 Rosetta

Rosetta是一种从头开始的方法，通过组装PDB库中的小片段来生成蛋白质模型。对于构象搜索，进行了多轮蒙特卡罗最小化，其中每个移动由一个评分函数进行评估，根据原构象与新构象之间的能量差，根据Metropolis准则接受该移动。其评分函数是一个术语的线性组合，包括物理和统计推导的，它描述了诸如非共价相互作用、主链扭转角等元素。Rosetta是一种整合的蛋白质模型预测工具，在CASP实验中对自由建模靶点非常成功。

3.2.2 ModPipe

ModPipe是一个相对自动化的软件，用于从序列中计算蛋白质结构模型。该工具的建模基于四个步骤:折叠赋值、序列结构对齐、模型构建和模型评估。首先，输入给定的输入序列，找到潜在的模板，然后计算模板和输入序列之间的匹配。然后执行ModPipe，为所有模板生成结果。

ModPipe可以在https://salilab.org/modpipe/上免费获得。

4 总结

我们学习小组通过许多的网上资源，如方法、工具和数据库等对蛋白质结构生物信息学进行了学习。但它们通常分散在不同的在线存储库中，这使得信息的获取有很大局限，这项任务对于刚接触生物信息学领域的人有些难度的。在此博文中，我们学习小组主要从蛋白质结构生物信息学分子对接、结构预测两个领域进行论述，使用工具对其进行分析，每个工具都根据其工作原理或算法背后的主要思想、优点和缺点进行了描述。最后，通过这次学习，小组成员更加了解生物信息学在蛋白质结构方面的应用，对生物信息学有了更深入的了解。