人CREB蛋白的生物信息学分析-526互联

小组成员：
潘情情 2010020113（文献查找、论文撰写背景介绍部分、小组展示PPT制作）
杨可 2010020125（文献查找、论文撰写材料与方法部分）
丁欣玥 2010020101（文献查找、论文撰写材料与方法部分）
徐诺 2010020114（文献查找、论文撰写讨论与结论部分、小组展示演讲）

结合课上学习的内容，我们小组对《基于生物信息学方法分析人CREB结合蛋白的结构与功能》这篇文献进行了分析与讨论，并做出以下介绍。

一、背景介绍

环磷腺苷效应元件结合蛋白(cAMP response element binding protein,CREB)是真核细胞中的一种重要的转录调节因子,其通过磷酸化和去磷酸化的形式,与细胞内环磷腺苷酸效应元件(CRE)的DNA及其它转录调控因子相互作用调控基因转录。研究表明其参加了人体的多种生物学过程,对细胞增殖、分化、生长、存活、凋亡等过程产生重要的作用。并且越来越多的研究表明，CREB结合蛋白基因的突变与多种肿瘤疾病密切相关。为了更加了解CREB结合蛋白的结构与功能，该文献结合了生物信息学的相关方法对其进行了蛋白质分析。

二、材料与方法

材料准备：从网站上下载人的CREB结合蛋白，并下载黑猩猩、恒河猴、牛、马、狗、小型棕褐蝠、小鼠、大鼠、爪蟾、斑马鱼、果蝇、秀丽隐杆线虫的CREB结合蛋白序列，用来与人的CREB结合蛋白进行同源性比较分析。
方法：本篇文献运用生物信息学相关数据库及分析软件对人CBP蛋白有关信息进行分析与预测，各数据库及分析软件信息见表1。

其中，ProtParam是一个免费在线工具，用于分析蛋白质的基本物理化学性质和亲水性等指标。该工具支持输入蛋白质序列及fasta格式，能够计算蛋白质的分子量、等电点、估算同年水溶性、亲水性指标、氨基酸组成和蛋白质碱基个数等指标，是蛋白质分析中常用的工具之一。

本文采用ProtParam工具对人CBP蛋白的理化性质进行分析，结果显示人CBP 蛋白共有2442个氨基酸残基，分子质量为265350.87，理论等电点为8.83。在构成CBP 的氨基酸中，脯氨酸（Pro，276个）、谷氨酰胺（Gln，268个）以及丝氨酸（Ser，218个）的含量较高，并且带负电（Asp＋Glu）和正电（Arg＋Lys）氨基酸残基的总数分别是 183 和 214。此外，其不稳定系数、脂肪系数和平均总亲水值分别为65．91、60．95和－0.690，提示人 CBP为不稳定亲水蛋白质。

我们发现本文运用了ProtScale ，ProtScale是一款基于 Web 的、免费的计算器，旨在根据用户输入的蛋白质序列和所选的参数，计算出蛋白质序列中某一部分区域的物理化学性质得分，并以图表的形式呈现出来。它可以帮助研究人员识别蛋白质序列中的结构域、功能域、修饰位点等，并为进一步的蛋白质分析提供基础数据。

本文献通过在线分析软件 ProtScale 的算法分析人CBP蛋白的亲疏水性。人CBP 蛋白中位于负值区的氨基酸占77.71％（1980／2432），其总分值为－1944.087，亲水性最强的位点为1561位、1562位的谷氨酸以及2563位的精氨酸，其分值为－3.7；位于正值区的氨基酸占21.8％（532／2432），其总分值为 254.966，疏水性最强的位点为1635位的异亮氨酸，其分值为1.967。预测结果表明，人CBP蛋白的大部分氨基酸处于亲水区，故推测该蛋白为亲水蛋白质。

而PSORT II 是一款在线工具，主要用于预测蛋白质细胞定位。它可以通过输入蛋白质序列信息，预测蛋白质在细胞中的定位，包括核内、核外、胞浆、内质网、高尔基体、线粒体等。PSORT II 工具根据蛋白质氨基酸序列中的信号肽和其他结构特征，预测蛋白质在细胞内的具体定位区域和子细胞定位区域，可用于生命科学相关研究。

本文通过在线分析软件PSORT II对人CBP蛋白的亚细胞定位进行预测，结果显示人CBP蛋白定位于细胞核、细胞质、细胞膜上的概率分别为82.6％、 8.7％、8.7％，表明人CBP蛋白存在于细胞核内的概率较大。

SignalP 5.0 是一款用于预测信号肽（Signal peptide）和信号核转运（Signal anchor）序列的软件。它可以用于预测真核生物、细菌和古菌中蛋白质的信号肽和信号核转运序列，并将其分类为可能的信号肽、可能的信号核转运或者没有明显信号序列。SignalP服务器是SignalP工具的在线版本，其主要功能是为用户提供一个快速、准确、方便的在线服务，可以方便地进行信号肽和信号核转运的预测。SignalP 5.0 Server在预测中使用的算法基于深度神经网络和蛋白质序列的特征，如氨基酸组成、N端序列、多肽长度等。它能够准确、高效地对大规模的蛋白质序列进行信号肽和信号核转运的预测，是研究蛋白质结构和功能的重要工具之一。

而TMHMM Server是一款用于预测蛋白质跨膜螺旋的工具。它采用隐马尔可夫模型的方法有效地预测蛋白质序列中的跨膜螺旋，包括跨越细胞膜的 α-螺旋和跨越膜的β-转角。TMHMM Server是在线版本，为用户提供一个快速、准确、方便的在线服务，可以方便地进行蛋白质序列的跨膜螺旋预测。其是基于经典的HMM模型实现的。它使用0/1状态模型对蛋白质序列进行建模，其中0表示非跨膜蛋白质状态，1表示跨膜蛋白质状态。该模型通过学习大量已知的跨膜蛋白质和非跨膜蛋白质，得到一组跨膜蛋白质和非跨膜蛋白质的概率分布，然后利用这些分布对未知蛋白质进行分类，并预测其跨膜螺旋的数量和位置。

本篇文献通过在线分析软件 SignalP 5.0 对人CBP蛋白的信号肽序列进行分析，其中 OTHER 的数值为0.9996， SP的数值为0.0004，表明人 CBP蛋白不存在信号肽序列，可以推测人 CBP 蛋白不是分泌蛋白。进一步利用在线分析软件 TMHMM Server 对人 CBP 蛋白的跨膜结构进行分析，表明人 CBP 蛋白不存在跨膜区域，提示人CBP 蛋白可能为非跨膜蛋白质。

SOPMA (Self-Optimized Prediction Method from Alignment)是一种能够预测蛋白质二级结构的方法。它通过利用多重序列比对信息和基于神经网络的算法，能够预测出蛋白质中α-螺旋、β-折叠和无规卷曲等三种主要的二级结构元件。

蛋白质的二级结构是指由氨基酸组成的线性肽链在空间中呈现的结构形态。目前，已知的蛋白质二级结构的类型有α-螺旋、β-折叠、无规卷曲和β-转角等。其中，α-螺旋在蛋白质结构中占有重要地位。它具有高度稳定性和结构紧密性，可以保持蛋白质在不同的环境中的结构完整性。而β﹣折叠以及无规卷曲则起到了连接和稳定蛋白质结构的重要作用。

SOPMA方法的核心是神经网络算法。神经网络是一种模拟人类神经系统的计算模型，可以学习从数据中提取特征，并进行预测和分类。SOPMA算法通过大量的蛋白质序列比对数据来训练神经网络，建立了从蛋白质序列到二级结构的预测模型，可以预测蛋白质二级结构中的各个元件的概率。

此外，SOPMA还利用多重序列比对信息进行预测。多重序列比对是一种将多个相似序列进行比对，寻找它们之间的相同点和不同点的方法。SOPMA将多重序列比对信息和一个特殊的矩阵结合在一起，进行特征提取，进一步提高了蛋白质二级结构的预测精度。

综上， SOPMA 算法是一种先进的蛋白质二级结构预测方法。它可以利用多重序列比对信息和神经网络算法，对蛋白质序列进行分析，预测出蛋白质二级结构中的各个元件的概率。它的高精度和快速计算速度，使得它成为了研究蛋白质结构和功能方面的重要工具。

蛋白质序列二级结构预测软件SMOPA的分析结果显示,人CBP蛋白中α-螺旋、β-折叠、 β-转角和无规卷曲所占比例分别为30.47%、9.95%、 6.43%和53.15%,其中无规卷曲和α-螺旋是人CBP 蛋白二级结构中数量较多的结构。

注：蓝色，α⁃螺旋；紫色，无规卷曲；红色，β⁃折叠；绿色，β⁃转角．

SWISS-MODEL根据对天然蛋白质结构与功能分析建立起来的数据库里的数据，可以预测一定氨基酸序列肽链空间结构和生物功能；也可以通过分子动力学、分子热力学等，根据能量最低、同一位置不能同时存在两个原子等基本原则分析计算蛋白质分子的立体结构和生物功能。

同源蛋白模型构建（模建）的步骤：

① 目标蛋白序列与目标序列的匹配：应用 FASTA 或 BLAST 搜索软件，在 PIR 、 SWISSPROT 或 GENEBANK 等序列库中按序列同源性挑选出一些同源性比较高的序列，然后把挑选出的序列与目标序列基序多重匹配，得到模板结构等价位点套的初始集合。

② 根据模板结构构建目标蛋白结构模型：在已确定的模板结构等价位点套的初始集合的基础上，旋转每一个模板的结构，使它们相互间的位置尽可能多地重叠在一起。不同两个模板在空间中若复合一定的重叠距离标准，那它们相互之间的关系就是等价位点。许多这样的等价位点构成了等价位点套。叠合结束后，即得到了同源蛋白的结构保守区（ SCRs ），以及相应的基架结构（ framework ）。模板结构匹配后，一般还要用得到的同源体的 SCRs 的第一条序列与目标序列匹配，挑选出目标序列上的高相拟区，定义为目标蛋白的 SCRs 。 Homology 、 UQANTA/CHARM 、 COMPOSER 、 CONSENSUS 、 MODELLER 和 Collar extension 等软件和方法可以用于目标蛋白结构模型的构建。

③ 对模建结构基序优化和评估：同源结构模建（预测）得到的蛋白质结构模型，通常含有一些不合理的原子间接触，需要对模型进行分子力学和分子动力学优化，消除模型中不合理的接触。另外，模型中有些键长、键角和二面角也有可能不合理，也需要检查评估。

采用String 11.0蛋白质相互作用预测软件分析与人CBP互作的蛋白网络，结果显示, 相互作用的蛋白质分别为CREB1、NCOA3、TP53、 KAT2B、RELA/P65、SMAD3、MYB、PPARG、 CTNNB1、HTT、STAT1。进一步采用 Gene Ontology 功能富集分析,预测结果显示,人CBP蛋白主要参与转录调控、细胞分化、组织发育、信号转色质结合、转录辅激活因子和乙酰转移酶等生物学功能,而细胞组分分析显示为染色质、核质及染色体等。KEGG通路富集分析显示,人CBP蛋白主要涉及的通路,包括甲状腺激素和Wnt信号通路、细胞周期、及病毒感染和肿瘤等疾病。

蛋白和它们的功能互作是细胞机制的支柱。在理解生物学现象时，蛋白之间的连接网络时需要考虑的。但目前“蛋白－蛋白”关联信息依然不完备，且表现出不同程度的注释分散度和可靠性。STRING 数据库的目的在于收集、评估及整合所有公用的“蛋白－蛋白”互作资源，并与计算机预测的结果互为补充。其目标在于成为一个综合的、专门的全球网络，涵盖直接的（物理上的）互作和间接的（功能上的）互作信息。STRING 数据库的最新版本号为 11.0，其囊括的物种数量相比之前翻了一番还多，达到 5090 个。其最重要的新特性在于，支持上传整个基因组水平的数据集，可以让用户把数据集可视化为互作网络，以及对整个输入的数据做基因富集分析。对于富集分析，STRING 不仅整合了著名的分析系统，例如 Gene Ontology 和 KEGG，还提供了另外新的基于高通量文本挖掘的分类系统，及基于数据库本身的关联网络的层级聚类。

三、讨论

CBP蛋白具有乙酰基转移酶的活性，能使组蛋白N－端赖氨酸残基乙酰化，从而改变染色质结构，因此在与转录调控、细胞分化、组织发育、信号转导及细胞凋亡等过程中发挥重要作用。研究显示，在CBP蛋白的作用下，数量有限的转录激活因子以及转录辅因子能够引起有效的应答反应。目前发现CBP基因的恶变多存在于恶性肿瘤患者当中，因此推测CBP基因可能参与肿瘤抑制的过程，但该过程的分子机制仍有待深入研究。

该研究利用生物信息学法对人CBP蛋白的结构与功能进行了预测与分析。结果如下：

1、亚细胞定位分析显示人CBP蛋白是一种位于核内，无信号肽和跨膜区域的亲水蛋白质。2、蛋白质二级结构分析显示，CBP蛋白以无规卷曲和 α－螺旋居多。3、CBP蛋白HAT结构域的氨基酸序列比对和三级结构分析表明，该结构域在进化上高度保守，并且其保守氨基酸形成一圆形凹陷结构，推测为底物结合区域，其中Tyr1433、Leu1434、Asp1435、Arg1664可能与酶活性密切相关。4、蛋白互作网络预测分析显示，人CBP蛋白可与CREB1、NCOA3、TP53KAT2B等互作蛋白相互作用，且这些互作蛋白多为转录因子或转录辅激活因子。5、GO功能注释和KEGG通路富集分析提示，人 CBP蛋白主要参与转录调控、细胞分化、组织发育、信号转导及细胞凋亡等生物学过程，这与肿瘤、神经退行性疾病和感染等疾病的发生发展密切相关。