生物信息学在蛋白质组学中的应用

朱贺何博文朱思颖周雨薇

1 蛋白质组学

1.1 概述

蛋白质组学（Proteomics）从整体的角度分析细胞内动态变化的蛋白质组成成分、表达水平与修饰状态，了解蛋白质之间的相互作用与联系，从而揭示蛋白质功能与细胞生命活动规律，其逐渐成为当前生物学研究的热点和突破最快的领域^[1]。自2014年人类蛋白质组草图发表后多种蛋白质组学相关研究陆续公布，蛋白质组研究取得了大量重要成果。

蛋白质组学研究是不断发展完善的。初期，主要以-DIGE及SDS－PAGE为主，这种方法通量较低，灵敏度不高。随着高效液相色谱技术（HPLC）和质谱技术的发展，基于液相色谱+质谱（LC-MS/MS）的3D蛋白质组学研究逐渐成为本领域的主流方法^[²^]；在此基础上，伴随着各种定量技术（如SILAC、iTＲAQ、SWATH和Label-Free等）的不断出现和高精密质谱仪器的成功应用，离子淌度（mobility）的引入，使得蛋白质组学研究进入了4D的高通量时代（见图1）。

1.2 主要研究内容

蛋白质组学的研究内容包括两个方面：（1）对蛋白质表达模式的研究，涉及对蛋白质组组成的分析鉴定，是蛋白质组学研究的主要内容，它要求对蛋白质组进行表征，即实现亚细胞结构、细胞或组织等不同生命结构层次中所有蛋白质的分离、鉴定及图谱化，以及比较、分析在发展变化的生理条件下蛋白质组所发生的变化；（2）对蛋白质组功能模式的研究，即通过各种技术（如用以建立蛋白质组各组分的相互作用关系的网络图的大规模酵母双杂交技术，以及双向电泳、质谱鉴定和生物信息学等蛋白质组学研究技术）分析蛋白质之间的相互作用，揭示蛋白质的功能。

1.3 研究策略

蛋白质组学研究的基本策略主要包括定性和定量研究，其中定性检测主要有两种策略：自底向上（Bottom-up）和自顶向下（Top-down）（见图2）。其中 Bottom-up应用的较为广泛，其中“bottom”指的是肽段，“up”是指由肽段推理为蛋白的过程，即先将蛋白酶解成肽段，然后通过色谱分离肽段混合物，再用质谱技术将肽段碎裂，根据碎裂谱图的离子峰信息进行数据库搜索来鉴定肽段，最后将鉴定的肽段进行组装、重新归并为蛋白质。Top-down的“top”指的是完整蛋白质分子的质量测定，“down”则是指对完整蛋白的碎裂。这种方法无需酶解，通过完整蛋白质的质量及其碎裂谱图信息可以实现蛋白质鉴定，序列覆盖度较高，能保留多种翻译后修饰之间的关联信息。

2 蛋白组学所涉及的生物信息学技术

2.1 生物信息学在蛋白质质谱数据处理中的技术

质谱已经成为蛋白质组学研究的核心技术。质谱数据是蛋白质组信息挖掘的主要源头，质谱数据解析则是蛋白质组生物信息学的研究重点^[³^]。主要的质谱数据分析技术包括以下几类。

2.1.1 质谱数据处理技术

质谱数据搜索软件有 Mascot、SEQUEST、 Lutkefish、Proteome software、Profound 和 PepSea 等。Mascot 是质谱数据搜索的常用软件，它是英国 Matrix Sciences 公司开发的产品，利用分子序列数椐检索的方法，鉴定样本中蛋白质的组成以及翻译后修饰^[⁴^]。

SEQUEST 是 Thermo Electron 开发的基于串联质谱数据(MS/MS) 的搜索软件。它将串联质谱数据与蛋白质数据库序列相联系，使研究者的质谱数据蛋白质鉴定，从费时的工作中解放出来，而且 SEQUEST 软件适合混合蛋白质的质谱鉴定^[⁵^]。

pFind是中国科学院计算技术研究所开发，我国有自主知识产权的串联质谱数据搜索软件。相比 Mascot、 SEQUEST，它的改进是在匹配打分过程中，考虑了相关离子的匹配程度，引入了核谱向量点积( kernel spectrum dot product，KSDP) 算法，通过对普通打分算法谱向量点积( SDP) 的扩展，借助机器学习领域中的核函数技术，利用连续离子匹配信息进行匹配打分，很好地降低了质谱数据搜索的假阳性结果。

2.1.2 定量蛋白质分析技术

生物质谱的定量蛋白质组学分析策略主要分为相对定量和绝对定量，相对定量蛋白质组是指对不同生理状态下的细胞、组织或体液蛋白质表达量的相对变化进行比较分析;绝对定量蛋白“质组是测定细胞、组织或体液蛋白质组中每种蛋白质的绝对量或浓度。基于质谱数据的定量蛋白质分析软件很多，主要包括 DeCyder MS、MaXIC-Q、 MSQuant 等。其中，DeCyder MSTM 软件是 GE公司开发的商业化软件，是运用于蛋白质非标记定量(Label-free)的主要工具;而MaXIC-Q是高通量定量蛋白质组学的通用计算平台，可用于大规模稳定同位素标记定量和液相色谱串联质谱数据的高通量、高精度定量分析;MSQuant是一款常用的定量蛋白质组学/质谱分析工具，主要用于对蛋白质和进行定量^[⁶^]。

2.1.3 质谱数据的 de novo 鉴定工具

de novo 测序方法不依赖于数据库，能明确解释串联质谱( Tandem mass spectrometry， MS/MS)图谱，对鉴定新的蛋白质和提高图谱的利用率具有重要的作用。De novo蛋白质鉴定软件有很多，包括MSNovo、Lutefisk、PEAKS、NovoHMM等^[⁷^]。

2.2生物信息学在蛋白质翻译后修饰中的技术

蛋白质的翻译后修饰( Post-translational modification，PTM) 是指对翻译后的蛋白质进行共价加工的过程，通过在一个或多个氨基酸残基加上修饰基团，可以改变蛋白质的理化性质，进而影响蛋白质的空间构象和活性状态、亚细胞定位、折叠及其稳定性以及蛋白质－蛋白质相互作用，是调节蛋白质功能的重要方式。许多至关重要的生命进程不仅由蛋白质的相对丰度控制，更重要的是受到时空特异性和翻译后修饰的调控^[⁸^]。对蛋白质翻译后修饰的研究可以帮助阐明和了解蛋白质功能及其功能变化，翻译后修饰的预测和分析也日渐成为生物信息学蛋白质序列分析中的重要的研究内容。最常见的修饰包括磷酸化（如核糖体蛋白的 Ser，Tyr和 Trp 残基被磷酸化），糖基化（如各种糖蛋白），甲基化（如组蛋白，肌蛋白），乙基化（如组蛋白），羟基化（如胶原蛋白）等。其中有些修饰基团只出现于多肽的 N 端，与氨基酸的种类无关；有些只出现在某几种氨基酸残基上，与位置无关；还有些修饰现象既与氨基酸种类又与其位置有关。这些修饰基团会影响蛋白质的相对分子质量和等电点，与被修饰蛋白质的活性功能和生命周期密切相关。例如，泛素化修饰的蛋白质通常会降解或内吞，法尼基化修饰的蛋白质会向膜运输，磷酸化修饰会使激酶（kinase）具有活性或为其结合蛋白提供停靠（docking）位点。此外，在信号通路中，通过对级联激酶可逆的加上或除去磷酸化基团来开启或关闭信号通路；在细胞周期中，泛素化修饰可以使细胞周期蛋白降解而使整个细胞周期停滞。因此蛋白质翻译后修饰在生命体中具有十分重要的作用。

随着多种物种基因组测序工作的完成，已建立了较完善的基因、蛋白质序列数据库，但这些数据库很少涉及与功能密切相关的翻译后修饰信息。收集整理翻译后修饰数据，建立翻译后修饰数据库，将有助于理解细胞在蛋白质水平上的调控机制。但由于翻译后修饰的多样性、动态性，实验检测翻译后修饰存在困难且代价较高，有实验证据的翻译后修饰的数据量还很少。修饰相关数据库目前多集中在磷酸化和糖基化^[⁹^]。其中Swiss-Prot是高质量的非冗余蛋白数据库，同时也有多种翻译后修饰的注释信息；Phospho.ELM和 Phosphosite详细收录了实验验证的磷酸化数据，部分磷酸位点还能对应到相应的激酶和文献。鉴于蛋白翻译后修饰在调节蛋白质功能上的重要作用，大量的翻译后修饰工具也被开发出来，包括预测黏菌蛋白的 O-糖基化位点的 DictyOGlyc 工具，预测哺乳动物蛋白的 O-GalNAc 糖基化位点的 NetOGlyc 工具，预测人类蛋白中的 N-糖基化位点 NetNGlyc 工具，预测植物甲基化位点的 CyMATE 工具以及预测磷酸化位点的 DISPHOS 和 Kinase Phos 工具等。

3 质谱生物信息学在蛋白组学中的应用实例

例如质谱生物信息学在运动心脏蛋白质组学研究中的应用，首先需要对整个组织或细胞器的蛋白质补充组件进行定性和定量。但是为了避免心肌组织样本的复杂性，需要对亚细胞分离用于随后的研究，这些方法包括差速离心术、流式细胞术、基于免疫的细胞分离术以及分离细胞核和线粒体时用到的密度梯度离心。当获得心肌细胞或心肌组织后，可以用凝胶或者无凝胶结合无荧光标记或者荧光标记定量的方法对蛋白进行分离，分离后便可进行蛋白分析。在蛋白分析中，质谱技术是核心技术，其最重要的进展在于能在不同生物状态下将蛋白通过化学同位素标记或者光谱计数进行定量。在针对心肌细胞的线粒体蛋白的研究中，有研究者用二维质谱和液相色谱技术仅发现两种蛋白参与了运动诱导的心脏重塑：线粒体蛋白Acyl-CoA脱氢酶家族成员9（Acyl-CoA dehydrogenase family member 9，AcadI）和天门冬氨酸转氨酶2（Aspartate aminotransferase 2，Got2）。对运动训练对心脏蛋白质组调控的影响进行了研究，所应用的工具是Cytoscape，可以在系统生物学背景下将蛋白信息可视化^[¹⁰^]。研究设立了运动量以及运动方式不同的大鼠组别，对其心脏组织中线粒体蛋白研究发现运动促了代谢酶苹果脱氢酸酶、磷酸丙糖异构酶以及短链acylCoA脱氢酶表达的增加。在心脏蛋白质组学研究中，质谱是分析蛋白质在不同运动情况下变化的核心技术，而生物信息学的辅助在于可以利用强大的计算机算力以及数据库，在更短时间内完成对质谱的分析。此外蛋白质结构可视化工具在机理的研究中，提供了很大帮助。

参考文献

[1]刘伟,刘书广,韩留福.蛋白质组学及其研究技术概述[J].生物学教学,2018,43(05):4-6.

[2]马骏骏,王旭初,聂小军.生物信息学在蛋白质组学研究中的应用进展[J].生物信息学,2021,19(02):85-91.

[3]徐长明. 蛋白质组学质谱数据深度解析关键问题研究[D]. 国防科学技术大学, 2014.

[4] Hirosawa M, Hoshida M, Ishikawa M, et al. MASCOT: multiple alignment system for protein sequences based on three-way dynamic programming[J]. Bioinformatics, 1993, 9(2): 161-167.

[5] MacCoss M J, Wu C C, Yates J R. Probability-based validation of protein identifications using a modified SEQUEST algorithm[J]. Analytical chemistry, 2002, 74(21): 5593-5599.

[6] Mortensen P, Gouw J W, Olsen J V, et al. MSQuant, an open source platform for mass spectrometry-based quantitative proteomics[J]. Journal of proteome research, 2010, 9(1): 393-403.

[7] Ma B, Zhang K, Hendrie C, et al. PEAKS: powerful software for peptide de novo sequencing by tandem mass spectrometry[J]. Rapid communications in mass spectrometry, 2003, 17(20): 2337-2342.