深度学习模型在基因组选择中的预测能力(统计、总结)

发布时间 2023-10-15 10:47:29作者: 王哲MGG_AI
  1. Gianola et al. [61]:

    • 应用:基因组选择。
    • 比较:多层感知器(MLP)与贝叶斯线性回归(BRR)。
    • 结果:在小麦数据集中,随着隐藏层神经元数量的增加,MLP的预测能力提高。MLP对BRR的性能提高了11.2%至18.6%。在Jersey数据集中,MLP也超越了BRR,特别是在脂肪产量、牛奶产量和蛋白产量上。
  2. Pérez-Rodríguez et al. [62]:

    • 应用:基因组选择。
    • 比较:径向基函数神经网络与其他线性模型。
    • 结果:非线性模型(神经网络和核模型)的总体预测精度通常优于线性回归模型。
  3. Gonzalez-Camacho et al. [6]:

    • 应用:基因组选择。
    • 比较:MLP、RKHS回归和BL回归。
    • 结果:三种方法的性能相似,RKHS和RBFNN仅略优于贝叶斯LASSO模型。
  4. Ehret et al. [63]:

    • 应用:基因组选择。
    • 比较:GBLUP模型与MLP。
    • 结果:两种模型在预测性能上的差异不显著。对于不同的牛种,模型的性能存在微小的差异。
  5. Gonzalez-Camacho et al. [64]:

    • 应用:基因组选择。
    • 比较:MLP和概率神经网络(PNN)。
    • 结果:PNN在准确性上超过了MLP。PNN的分类性能(基于AUC指标)通常高于MLP,只有少数例外。

总结:这些研究表明,在基因组选择的应用中,不同的模型有其优势和限制。MLP和其他深度学习方法在某些情况下可能会超越传统的统计方法,但这也取决于特定的数据集和任务。选择适当的模型需要基于特定的应用和数据进行决策

  1. McDowell [65]:

    • 应用:基因组选择。
    • 比较:多层感知器(MLP)与其他传统基因组预测模型。
    • 结果:在6种性状中,MLP在3种性状上超越了传统模型。
  2. Rachmatia et al. [66]:

    • 应用:基因组选择。
    • 比较:深度信念网络(DBN)与传统基因组预测模型。
    • 结果:在研究的4种性状中,DBN只在1种性状上超越了传统模型。在性状-环境组合中,BL模型超过了其他方法。
  3. Ma et al. [67]:

    • 应用:基因组选择。
    • 比较:卷积神经网络(CNN)与其他基因组预测模型。
    • 结果:CNN、RR-BLUP和GBLUP是预测性能最好的模型,而其他MLP版本的性能相对较差。总体而言,具有CNN拓扑结构的深度学习模型在预测性能上是最好的。
  4. Waldmann [68]:

    • 应用:基因组选择。
    • 比较:MLP、GBLUP和BL。
    • 结果:在模拟数据和真实数据中,MLP都减少了均方误差,表现优于GBLUP和BL。
  5. Montesinos-López et al. [70]:

    • 应用:基因组选择。
    • 比较:深度学习方法与GBLUP模型。
    • 结果:当不考虑G×E交互作用时,深度学习方法在9个数据集中的6个上都优于GBLUP模型。但当考虑G×E交互作用时,GBLUP模型在9个数据集中的8个上是最佳的。

总结:文献中提到的各项研究都在不同的数据集和性状上比较了深度学习模型和传统基因组预测模型。结果表明,选择的模型和其在特定应用中的表现依赖于数据、性状和其他实验条件。在某些情况下,深度学习模型(如CNN和DBN)表现优于传统模型,而在其他情况下,则未必如此。

  1. 多性状深度学习模型(MTDL) vs 贝叶斯多性状和多环境模型(BMTME):

    • 应用: 基因组选择。
    • 比较: MTDL和BMTME。
    • 结果: 当不考虑基因型×环境交互作用时,MTDL模型的预测性能优于BMTME模型。但是,当考虑该交互作用时,BMTME模型的性能超越了MTDL模型。
  2. Bellot et al. [72]:

    • 应用: 复杂人类性状预测。
    • 比较: MLP、CNN与贝叶斯线性回归。
    • 结果: 所有方法的性能都差不多,但总体来说,CNN的性能是最差的。MLP的性能取决于SNP集和表型。CNN的性能与线性模型竞争,但并没有哪种情况下DL明显优于线性模型。
  3. Montesinos-López et al. [73]:

    • 应用: 基因组选择。
    • 比较: 单变量深度学习(DL)、支持向量机(SVM)和传统的贝叶斯阈值最佳线性无偏预测(TGBLUP)。
    • 结果: 三种方法之间没有大的差异。但在许多情况下,TGBLUP的性能超越了其他两种方法。当考虑交互作用项时,TGBLUP的预测性能最好。而在不考虑交互作用项时,三种方法的性能没有统计学上的差异。

总结: 文献中的研究比较了深度学习模型与其他基因组或表型预测方法。不同的研究得出了不同的结论,这些结论取决于数据、性状、交互作用项的处理等实验条件。在某些情况下,深度学习模型(如MTDL)在预测性能上超越了其他模型,而在其他情况下,传统方法(如BMTME和TGBLUP)可能表现得更好。

Gonzalez-Camacho等人的研究,他们比较了两种分类器,多层感知机(MLP)和概率神经网络(PNN),在玉米和小麦的基因组和表型数据集上。以下是这部分内容的详细解释和摘要:

  1. 背景:

    • 研究目的: 比较MLP和PNN在玉米和小麦基因组和表型数据集上的性能。
    • 数据: 玉米和小麦的基因组和表型数据集,这些数据集具有不同的性状-环境组合。
  2. 主要发现:

    • PNN的准确性比MLP高。这意味着在这些特定的数据集和条件下,PNN为预测或分类提供了更好的结果。

    • 对于分为两类和三类的小麦数据集的连续性状,PNN在将个体分类到上层类别时,三类的性能高于两类。这可能意味着更细致的分类(即三类而不是两类)使PNN能够更准确地进行预测或分类。

    • 在玉米的不同性状-环境组合中,利用曲线下面积(AUC)标准显示,PNN30%或PNN15%的上层类别(性状粮食产量,GY)通常大于MLP的AUC。唯一的例外是GY-SS的PNN15%,其AUC低于MLP15%。AUC是一个常用于评价分类器性能的指标,值越接近1表示分类器的性能越好。在这里,除了一个例外,PNN的性能都优于MLP。

  3. 图表说明:

    • Fig. 5a可能展示了小麦数据集中,两类和三类PNN分类的比较。

    • Fig. 5b可能展示了玉米数据集中,PNN与MLP之间的AUC比较,特别是在不同的性状-环境组合中。

总结: 在Gonzalez-Camacho等人的研究中,他们发现在玉米和小麦的基因组和表型数据集上,概率神经网络(PNN)在大多数情况下的预测或分类性能都优于多层感知机(MLP)。

  1. Waldmann的研究

    • 模拟数据 (TLMAS2010): Waldmann使用模拟数据进行了研究,并得到了以下的均方误差(Mean Squared Error, MSE)结果:

      • MLP: 82.69
      • GBLUP: 88.42
      • BL: 89.22

      这表明,在模拟数据集上,MLP模型的性能最好,因为它的MSE最低。

    • 真实数据 (Cleveland pig data): 使用真实的克利夫兰猪数据进行研究后,Waldmann得到了以下的MSE结果:

      • MLP: 0.865
      • GBLUP: 0.876
      • BL: 0.874

      这里,MLP和BL的性能相差不大,但GBLUP稍微落后一些。但是,这些差异都很小,因此实际上三种模型在真实数据上的性能是相当接近的。

    • 性能改进: Waldmann的研究发现,与其他模型相比,MLP在模拟数据上至少减少了6.5%的MSE,在真实数据上至少减少了1%的MSE。

  2. Montesinos-López的研究

    • 基因与环境的交互效应 (G × E interaction term):
      • 当没有考虑G × E交互效应时,深度学习(DL)方法在九个数据集中的六个上都优于GBLUP模型。
      • 但是,当考虑了G × E交互效应时,GBLUP模型在九个数据集中的八个上表现最好。

总结:

  • Waldmann的研究表明,MLP在模拟数据上具有较低的MSE,而在真实数据上,所有模型的MSE都非常相似。

  • Montesinos-López的研究强调了基因与环境交互效应(G × E)在选择模型时的重要性。不考虑G × E时,DL模型通常更优,但考虑G × E时,GBLUP模型往往更胜一筹。

这些研究强调了选择合适模型的重要性,这取决于特定的应用场景和数据特点。

  1. Montesinos-López et al. [74] 的小麦研究:

    • 当考虑到交互效应(I)时,GBLUP模型的预测表现最好,而单变量深度学习(UDL)的预测表现最差,多变量深度学习(MTDL)的预测表现则居中。
    • 当忽略交互效应时,GBLUP和MTDL的预测表现相似且均较好,而UDL的预测表现则最差。
  2. Khaki and Wang [75] 的玉米研究:

    • 他们使用了一个大的训练数据集,并被要求预测2017年的产量。
    • 深度学习模型MLP(具有20个隐藏层)的表现优于传统的基因组预测模型和仅有一个隐藏层的MLP模型。其中,对于GY(grain yield,粮食产量)这一特性,MLP模型的表现最好。
  3. Azodi et al. [77] 的植物研究:

    • 使用了六种植物种类和18种特性的数据,对多种线性和非线性机器学习模型进行了比较。
    • 结论是没有一个算法在所有特性和种类上都是最佳的。但是,基于多个算法的组合结果的预测(即集成预测)表现始终很好。
    • 虽然线性和非线性算法在相似数量的特性上都有最佳表现,但非线性算法在不同特性之间的表现变化更大。
  4. Liu et al. [78] 的大豆研究:

    • 使用皮尔逊相关系数作为度量,深度学习模型的表现优于传统的基因组预测模型。
    • 在五种特性中的三种中,MLP模型比其他深度学习方法(dualCNN, deepGS 和 singleCNN)表现得更好。

总的来说,这些研究表明深度学习方法在某些情境下可能比传统方法更有优势,但并不是在所有情况下都是如此。而且,即使是在深度学习方法之间,不同的模型和架构也可能会有不同的表现。这强调了在选择模型时需要考虑特定问题和数据的特点。

在基因组预测中,有多项研究比较了传统模型和深度学习模型的预测性能:

  1. Abdollahi-Arpanahi等人[79]:

    • 研究了11,790头荷尔斯坦公牛的配种受孕率。
    • 梯度增强法具有最佳的预测性能,其次是Bayes B,GBLUP,RF,CNN和MLP。
  2. Zingaretti等人[80]:

    • 为草莓和蓝莓比较了基因组预测模型与CNNs。
    • 对于草莓:线性Bayesian模型在累加性状上优于CNNs,而在强表现型下,CNNs则更为优越。
    • 对于蓝莓:Bayesian方法(BL和BRR)略好于CNNs。
  3. Montesinos-López等人[81]:

    • 在平均斯皮尔曼相关性(ASC)方面研究了深度学习模型NDNN和PDNN。
    • 考虑到基因型×环境相互作用,深度学习模型表现更佳。
  4. Waldmann等人[43]:

    • 使用TLMAS2010数据比较了CNN与GBLUP和BL。
    • 在模拟数据中,CNNs显示出显著的改进,但在真实的猪数据集中,增益较小。
  5. Pook等人[82]:

    • 发现在模拟数据集中,局部CNN(LCNN)表现优越。
    • 对于真实的拟南芥数据集,深度学习模型(MLP,CNN,LCNN)的表现略逊于传统的基因组预测模型。
  6. Pérez-Rodríguez等人[83]:

    • 提出了使用广义EM算法的序数数据神经网络模型。
    • 在与作物中的真菌疾病相关的两个数据集上,该网络的性能优于传统的Bayesian有序probit线性模型。

总的来说,深度学习和传统模型在基因组预测中的性能因数据集和正在预测的特定性状而异。但是,深度学习模型,特别是CNNs,在某些条件下经常显示出前景,并且可以优于传统方法。