机器学习在生物信息学领域的应用与研究进展-526互联

生物2001 朱腾骞肖义燃伍紫来邹智伟

一

人工智能是计算机科学领域一个重要的分支，可概括为通过计算机程序来呈现人类智能活动规律的技术系统。机器学习是人工智能领域重要的组成部分，也是实现人工智能的一个重要途径。机器学习使计算机能够模拟人类的学习行为，自发地通过学习来获得知识和生活技能，也在学习的过程中不断改善自身性能，从而实现自我改善。

生物信息学是将数学和计算机科学应用于生物分子信息的索引、分类与分析等方面的一门交叉学科，目的是研究生命科学中各种生物信息所代表的生物学意义。生物信息学的研究随着基因组研究的发展而发展，通过分析和解读基因组相关信息，来理解生命科学中生长发育、分化、疾病发生发展等过程。生物信息学领域数据结构复杂、种类繁多，数据量增长迅速，并且生物数据来源具有多样性和复杂性。对于繁杂的生物数据，一方面要解决海量数据的存储和管理问题，一方面要能够在尽量保证反映生物学真实意义数据的前提下，从数据中提取有效的信息。

机器学习作为实现人工智能的重要方法，无需显式编程即可处理机器的自动学习，主要内容是执行基于数据的预测，在生物信息学领域已经应用广泛。针对于机器学习中的监督式学习、无监督学习、半监督学习以及神经网络在生物信息学中的研究与应用简要介绍如下。

二监督式学习

监督式学习算法是指那些需要外部帮助的算法。算法输入的数据集为训练数据集和测试数据集，训练数据集含有需要预测或分类的输出变量。所有算法都从训练数据集中学习某种模式，并将其应用于测试数据集以进行预测或分类。

决策树

决策树（Decision Tree）是根据属性值来进行排序并且进行分组的树类型，主要用于分类。每棵树都由节点和分支组成，每个节点表示要分类的组的属性，每个分支表示节点可以采用的值。变异检测是二代测序数据分析中的关键链接，包括将一个或者多个样本的reads比对到基因组、检测变异位点和鉴定出每个变异位点基因型等步骤，变异检测的准确性会影响数据的下游分析，从而影响分析结果。

支持向量机

支持向量机（Support Vector Machine,SVM）是最近广泛使用的一种机器学习技术，按照边距计算的原理，在两个类别之间创建一个决策边界，使边距与类别之间的距离最大，从而使分类的误差最小。蛋白质的三维结构对于详细了解生物分子的功能至关重要，已知蛋白质序列的数量与其实验解析的三维结构之间存在巨大差距。就目前来说，蛋白质结构的成功预测是弥合这一差距的较为实用的方法，而蛋白质结构预测中主要的两个步骤就是对给定的蛋白质序列生成大量的结构模型，以及对这些结构模型进行排列，从而选择最佳的模型。

三无监督学习

无监督学习算法很少从新数据中学习特征，在应用于新的数据时，将采用以前学习的功能来识别数据的类别，主要用于聚类和特征约简。

聚类

聚类（Cluster）是一种无监督的学习技术，使用时会自动创建分组，将具有相似特征的数据放在同一个类群中。K-means是无监督聚类中常用的一种聚类算法，其原理是先随机选取K个对象作为初始的聚类中心，然后计算其他对象与初始聚类中心点的距离，根据距离将每个对象分配给距离它最近的聚类中心点。每次分配一个样本，聚类中心点就会重新计算一次，不断重复这个过程直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

降维

降维（Dimension Reduction）是一种对具有高维度特征数据的预处理方法，即减少大数据集的维数，保留高维度的数据最重要的一些特征，去除噪声和不重要的特征，从而提升数据的处理速度，在把信息丢失降到最低的同时，使结果更加容易理解。

主成分分析方法（PCA）是无监督学习特征约简中使用最广泛的的降维算法，PCA的主要思想是将n维特征映射到k维上，k维是全新的正交特征也被称为主成分。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1、2个轴正交的平面中方差最大的。依次类推，一共可以得到n个这样的坐标轴，而这n个坐标轴中，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是就可以只保留前面k个含有绝大部分方差的坐标轴而忽略剩下的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，从而实现对数据特征的降维处理。

四、半监督学习

半监督学习（Semi-supervised Learning）使用已经标记的数据和未标记的数据来构造分类器。半监督学习的目的是使用未标记的实例，将未标记数据中的信息与已标记的显示分类信息相结合以提高分类性能，从而改善学习过程中的问题。

自我训练（Self-training）是用于半监督学习的一种迭代方法，它利用现有训练数据得到的模型，先进行预测将标签分配给无标签的数据，然后选择一组新标记的置信度高的数据，并将其添加到训练集中以进行下一次迭代，直到数据集不发生变化为止，不发生变化包括所有的数据都被标注了标签，以及该模型找不到置信度高的预测结果两种情形。基于图的半监督算法基于图的半监督学习算法（Graph-based Semi-supervised Learning）用图形来描绘样本空间，用近邻点的位置来控制标记信息的传播。

标签传播算法（Label Propagation Algorithm）是一种基于图的半监督学习算法，通过构造图结构（数据点为顶点，点之间的相似性为边）来寻找训练数据中有标签数据和无标签数据的关系。半监督支持向量机标准的支持向量机是基于监督学习的，虽然可以有效地解决各种实际的问题，但是需要手工对大量的样本进行标记，以获得足够的训练样本，效率低而代价高。因此，根据实际需求开发了半监督的支持向量机。半监督支持向量机是基于聚类假设，通过探索未标记的数据来规范以及调整决策的边界。为了利用未标记的数据，半监督支持向量机在原来支持向量机的基础上，对未标记的数据点增加了两个限制。

五、神经网络

神经网络（Neural network），机器学习的一个重要组成部分，是由多个处理层组成的计算模型，可以用于学习具有抽象特征的数据。神经网络对于深度学习的构建发挥了重要的作用，深度学习通过使用反向传播算法，可以指示机器应该如何更改其内部参数来发现大数据集中的复杂结构，这些内部参数可以根据上一层的指示来计算每一层的指示[43]。深度神经网络和递归神经网络可以应用于预测蛋白质的结构[45-48]、检测远距同源的蛋白质结构[49]和评估蛋白质模型质量[50]等方面。DNA和RNA结合蛋白在基因调控（包括转录和选择性剪接）中起着核心作用，明确DNA和RNA结合蛋白的序列，对于开发生物系统中调控过程的模型以及鉴定疾病的病因变异体至关重要[51]。

六、总结与展望

随着基因组研究的发展，极大地推动了生物信息学领域的发展，随之而来的是对生物学数据的处理问题。生物学数据的特点是数据量大而且包含一定的生物学意义，结合生物学数据的特点，本文讨论了机器学习算法中监督式学习、无监督学习、半监督学习以及神经网络算法在生物信息学领域的应用。监督式学习算法是需要外部帮助的算法，在一定程度上也受到了这个条件的限制；无监督学习算法通过以前学习的经验来应对新的数据，这对新的数据要求比较限制，并且需要衡量指标来判断对新数据学习的情况；半监督学习应用的数据一部分有标记一部分无标记，适合病例数据类型集，但无标记部分的数据不容易质控；神经网络适合处理大数据，但是受限于神经网络应用的假设前提，有些不符合前提的生物学大数据在应用神经网络时可能不会达到预期效果。为了使各种算法更好地应用于生物信息学领域，一方面要对各种算法的原理以及处理过程有详细的理解，让生物学背景的研究人员可以针对自己的问题，来寻找相应的解决方法，一方面要对所处理的生物学数据代表的生物学意义有一定的认识，让计算机领域的研究人员可以开发出更合适的处理方法。除此之外，未来人工智能技术在生物信息学领域的发展，除了对相应生物学问题的数据进行合理的分析处理，还要能够与实验过程的步骤进行智能结合。二十一世纪是生命科学的世纪，随着人工智能技术和生物学技术的快速发展，二者深度融和大放异彩指日可待！

bioinformaticsmeeting期刊领域生物