蛋白质的结构的预测与 TCP 转录因子家族功能冗余分析

发布时间 2023-06-08 13:45:08作者: zwjdeboke

蛋白质的结构的预测与 TCP 转录因子家族功能冗余分析

  生物信息学伴随着人类基因组计划的发展而产生,生物信息学是一门交叉学科,它包含了生物信息的获取、加工、储存、分配、分析、解释等在内的所有方面,它运用数学、计算机科学和生物学的各种工具来阐明和理解大量的数据所包含的生物学意义。生物信息学是生命科学领域的一个重要研究方向,是解决生物问题的一种重要手段。生物信息学的发展主要经历了三个阶段。第一个阶段是前基因组时代,这一阶段的主要工作包括建立各种序列比较算法、建立生物数据库、开发检索工具以及分析DNA和蛋白质的序列等;第二个阶段是基因组时代,主要工作是测定和分析大量的核酸序列以及建立和开发基于交互界面和网络的数据库系统等;第三个阶段是指随着人类基因组测序工作的完成,人类已经进入的后基因组时代,这一阶段的工作是在基因组全序列基础上,从整个基因组及其全套蛋白质产物的结构一功能一相互作用出发,去了解生命活动的全貌。

  生物信息学在生物学研究中的最重要应用之一是揭示生命现象的本质。在生长、发育、繁殖、进化和人类健康等方面,生物信息学技术都有着广泛的应用。例如,通过从基因到表现型的表观遗传学模拟和模型分类可以帮助我们了解这些复杂的生命现象如何产生和发展。这不仅促进了我们对自然界的深入了解,而且有助于开发新的治疗方法和疫苗。生物信息学还可以帮助科学家们理解基因组的结构和功能,进而改善人类健康,解决基因性疾病的问题。通常情况下,基因组需要经过大量的预处理、分析和注释才能被理解。生物信息技术允许我们将这些数据组织起来并分析,让我们能够对基因的结构和功能进行深入研究。生物信息学还可以帮助我们研究物种之间的关系和进化历史,这对于理解生物多样性的演化和分布非常重要。通过分析基因组序列、分子标记和形态数据等多种数据,生物信息学技术可以帮助我们了解不同物种之间的进化关系,揭示出生命多样性的历史和地理分布规律。

  本文中我们对两篇文献进行了初步分析和解读,进一步认识到生物信息学的重要意义。

  其中一篇来自International Journal of Data Mining and Bioinformatics,主要讲述了蛋白质在生物体中的功能与其三维结构有关结构,已知最终由其线性序列决定共同形成这些大分子的氨基酸。因此,它是非常重要的,是能够解释和预测蛋白质3D结构是如何由氨基酸的特定线性序列产生的。本文主要报告了机器学习方法在预测中的应用准确性值,蛋白质的二级结构,即α-螺旋和β片,是局部结构的中间层次。该文献的研究目的是探索如何利用机器学习算法来预测蛋白质的二级结构。在这篇论文中,我们讨论了分子生物学中一个非常相关的问题,即预测二级结构的发生。研究这些问题我们已经从PDB中描述的蛋白质中收集了氨基酸序列。对于预测“显著”点的每个问题都是我们定义的特定结构两个类值:一类序列是研究中出现的“显著”点;所有其他类型的序列,其中出现了研究中没有的其他显著点。研究者使用了多种不同的特征提取方法,并将这些特征输入到不同的机器学习模型中,以比较它们的性能。他们使用了大量的蛋白质序列和结构数据来训练和测试这些模型。

  研究结果表明,使用机器学习算法结果显示了高精度值,最小值为84.9%使用函数树预测螺旋的起点,以及最大值在同样使用函数树预测β-链的内部位置时,其准确率为99.6%。在每个表中,最佳精度值都远远高于基线值。基线值被作为ZeroR预测,这实际上是多数类预测。TPR也获得了良好的值,在预测β-绞线终点。函数树算法对α-螺旋产生最佳结果而在β-,而随机森林和IBk是最佳的精度值。整体功能树具有在几乎所有的预测问题中,在准确性和TPR方面都有非常好的性能。贝叶斯网络在β-sheet预测中的TPR表现相当好问题。研究者发现,使用多种不同的特征提取方法可以显著提高预测蛋白质二级结构的准确性。此外,他们还发现,使用深度学习模型可以进一步提高预测准确性。最终,他们开发了一个名为DeepCNF的深度学习模型,可以在多个数据集上实现最先进的性能。该文献的结果经过了严格的测试和验证,并在多个数据集上得到了验证。因此,这些结果可以被视为相对可靠的。此外,由于预测蛋白质二级结构是生物信息学中的一个重要问题,因此该文献的结果具有实用性。该文献的主要贡献是提供了一种新的方法来预测蛋白质二级结构。这个方法可以在多个数据集上实现最先进的性能,因此可以成为生物信息学研究中的一个重要工具。此外,该文献还提供了一些关于如何选择特征和模型的指导,这对于其他生物信息学问题的解决也可能有帮助。

  另外一篇来自Journal of Experimental Botany,研究对象为TEOSINTE-LIKE1,CYCLOIDEA和增殖细胞因子1(TCP)转录因子构成了植物特异性转录因子的小家族,其成员在植物发育中共享功能。拟南芥基因组编码 24 种 TCP 转录因子,根据序列相似性分为 I 类和 II 类 TCP。所有TCP转录因子共享TCP结构域,这是一个59个氨基酸,非规范的基本螺旋-环-螺旋结构域,负责核靶向,DNA结合和介导蛋白质-蛋白质相互作用。除了这个结构域之外,TCP蛋白序列通常是高度可变的。对拟南芥中单个TCP敲除突变体的分析仅导致少数不同且主要是微妙的突变表型,大多数已知的拟南芥 tcp 突变表型是双重或多次敲除的结果。该文献主要讲述了TCP转录因子已被确定在不同的生物过程中发挥作用,例如叶片发育,腋生分生组织生长和花对称性的调节。在许多情况下,不是单个TCP,而是一组TCP基因参与这些过程的调节。转录因子的功能分析由于其成员之间的功能冗余而受到阻碍。通常,根据序列相似性预测假定的功能冗余基因,并通过遗传分析加以确认。然而,在TCP家族中,识别受到相对较低的整体序列相似性的阻碍。对拟南芥TCP转录因子家族的24个成员进行了整合生物信息学分析,结合蛋白质序列相似性、基因表达数据和成对蛋白质相互作用研究结果。为此,该工作通过实验完成了任何缺失的基因表达和蛋白质相互作用数据,然后对潜在的功能性冗余TCP对进行了全面的预测。随后,可通过遗传和分子分析确定所选预测TCP对的冗余功能。

  研究结果表明,研究利用生物信息学和实验相结合的方法鉴定了拟南芥叶片发育中具有功能的TCP转录因子对,并确定了拟南芥叶片发育中可能具有功能的TCP蛋白对。利用经典遗传学和分子方法鉴定了已知和未知的TCP对,并验证了典型病例的功能冗余。将大规模数据分析与分子生物学方法相结合,研究拟南芥叶片发育中TCP转录因子家族的功能冗余对。虽然没有检测到一些已知的冗余TCP对,但发现了影响叶片发育的新型蛋白质对(TCP19-TCP20),显示了这种方法的可行性。本工作将经典的遗传和分子方法与生物信息学预测相结合来揭示TCP转录因子家族中功能冗余的能力。此后,可以考虑以同样的思路来预测转录因子家族中功能冗余的能力。根据研究的重点“营养发育”,选择叶片发育基因表达时间序列作为冗余预测的输入。例如,为了研究TCP基因关于激素信号传导或SAM的可能功能冗余,可以选择分别使用来自激素治疗实验的可用表达数据和SAM干细胞生态位的高分辨率表达数据,此后可以考虑将经典的遗传和分子方法与生物信息学预测相结合来揭示TCP转录因子家族中功能冗余的能力。

在当今大数据时代,生命科学领域的数据产出能力在各学科中处于领先位置,以基因组学和蛋白质组学数据为核心的组学大数据增长速度远超很多其他领域。作为生物信息学发展的重要趋势,数据量迅速增大,数据类型不断增加,为生物信息学方法提出了大量新挑战;组学技术使越来越多层面的生物机理被揭示出来,系统生物学研究越来越走向对生物调控机理的定量认识和建模;同时,对生物系统认识的深化和合成生物学、基因编辑技术的不断突破,使得合成基因线路与系统的理论和技术有很大发展。我国近年来在许多领域中都取得了很大进展,如下:

  高通量测序数据处理与分析:新一代测序技术迅速发展,能以更高通量、更低成本快速完成基因组和转录组测序,对数据处理和分析是很大挑战。序列比对、组装等传统生物信息学问题仍是当前研究的一个重点。

  多组学数据整合与基于测序的遗传学分析:新一代测序技术使人们能从DNA、RNA和蛋白质等多个层次解析癌症等复杂的生物过程,其中多组学数据的有效整合是急需解决的关键问题。

  基因网络分析:基因不是相互孤立行使功能的,而是多个基因通过多种转录调控、蛋白质相互作用等形成分子网络,以系统形式行使功能。近年来,我国学者在生物分子网络研究方面取得显著成绩,包括构建基因调控网络、miRNA 调控网络、基因共表达网络,识别网络模块和标志物,分析癌症的分子网络机制等。

  蛋白质组生物信息学:蛋白质与蛋白质组是生物信息学的另一个主要研究对象,结构生物学的突破尤其是冷冻电镜等技术的发展,为蛋白质相关的研究迎来了崭新的发展机遇。另外,蛋白质相关的图像和分子影像数据是重要数据来源,与之相匹配的深度学习等新型智能化算法不断涌现。

  表观遗传生物信息学:表观遗传是指不能用 DNA 序列改变来解释的稳定遗传性状,DNA 甲基化是其重要组成部分,是生物信息学研究的重要方面。

  合成生物学:人工基因线路的设计与实现合成生物学是在生物信息学与系统生物学研究基础上对生物分子系统进行设计、合成与调控的学科,在医疗、化工、环境等方面有巨大应用前景。我国学者从控制与系统的角度出发,发展了新的合成基因线路元件与构建方法,在哺乳动物合成基因线路设计与实现上取得重要进展,并展示出医学应用前景。