基于机器学习的基因组预测

发布时间 2023-08-18 20:16:51作者: 米源MY

机器学习与GP

与动物育种相比,植物的基因组选择必须通过环境相互作用来考虑更大的基因型,并且需要添加适当的多环境试验数据。

机器学习 (ML) 和深度学习 (DL) 算法比线性预测模型更复杂,可以发现数据集中的非线性关系。与以前的方法相比,随机森林、支持向量机和人工神经网络由于其非线性,可能更容易捕获基因型、表型和环境之间的复杂关系。

从理论上讲,非线性方法能够更好地捕获标记之间的小相互作用,考虑环境相互作用并为高维数据生成更准确的预测。ML 和 DL 架构还可以包括不适合简单表格格式的多模态数据类型。

DL是从大型数据集中提取代表性特征的有效方法,能够考虑特征交互效应。然而,传统的 ML 方法和混合线性模型仍然非常适合处理有限的数据集,在许多情况下生成比 DL 模型更准确的预测。我们建议表型预测应扩展到GBLUP方法之外,以确保为每个基因组选择问题评估足够的模型。

image.png

基因型数据编码

对ML和DL的全基因组SNP数据进行编码的最常见形式是使用一种热编码,其中每个SNP位置由四列表示,每列代表DNA的四个碱基:A,T,C和G。每个位置的碱基的存在用1表示,缺失用0表示(Zou et al., 2019),由此编码为二进制表示形式,适用于 ML 和 DL的数字输入。SNP one 热编码是表型预测中 DNA 序列数据最常见的数据表示之一。

在性状关联研究中,特征数量明显多于样本数量是很常见的。在植物育种中,可通过特征选择、MAF和GWAS降维去除冗余信息。在人类研究中,MAF、启动子区、选择少数SNP和整合转录数据等方法用于减少SNP数量。其他策略还包括关注与功能相关的罕见变异,选择GWAS感兴趣的区域等。

植物中的基因型编码主要限于SNP编码,但还有其他形式的基因组变异,以及可用于表型预测的遗传变异数据编码的不同方法。

高通量表型

基因型到表型模型通常应用于稀疏收集的表型性状。高通量表型产生的表型数据密度增加,使研究人员能够动态测量植物生长的变化,评估基因组变异在不同发育阶段的影响。

转录组、蛋白质组或代谢组数据等中间表型也可以在多维数据集中关联,提供植物对环境条件响应的更详细描述,并可能提高表型预测的准确性。

添加多维数据集可能会成倍增加分析的复杂性,需要能够揭示数据类型与目标特征之间关系的算法。DL 模型在处理复杂的多模态数据集方面取得了成功,最近,使用DL使用高通量植物表型图像作为输入进行性状预测的几项研究发表。

多模态深度学习模型由多个模型组成,每个模型使用单一输入类型(例如,降雨、土壤测量、遗传数据、高光谱图像)或基于级联多模态数据训练的单个模型。不同的模式有助于丰富模型学习的可用功能,有助于改进最终预测。

image.png

部署DL模型的挑战主要来自植物表型可塑性,因为植物根据环境条件呈现广泛的表型。ML/DL模型的有效性还取决于根据目标任务适当地调整模型超参数,Optuna和HyperOpt等软件包可帮助调整。

高通量表型的挑战与处理:

  • 训练和模型部署期间数据收集和处理的一致协议。
  • 避免维度的诅咒,可用特征选择算法来帮助选择最具代表性的数据子集来训练。
  • 数据不平衡,可通过采样方法(过采样或欠采样)来解决。
  • 环境的变化,可通过收集模拟模型在预测表型时将看到的条件的数据来解决。

image.png

数据驱动的育种需要结构化数据集

训练健壮的 ML 模型的一个常见挑战是缺乏具有足够数据点和样本可变性的适当数据集。植物表型数据集的稀缺一是因为由于缺少信息以及难以找到存储它的公共存储库,二是数据保存在访问受限的数据孤岛中。一些国际联盟,如AgBioData和育种API(Selby et al,2019)正在努力共享和转换育种数据集,使其变得更容易找到,可访问,可互操作和可重用。然而,需要一个集中的平台来托管和管理表型数据集,以使数据更广泛地可用,类似于用于共享基因组数据的方法。

限制研究人员使用以前发表的数据集的另一个方面是缺乏标准化的元数据描述,包括实验设计、数据收集协议、现场管理、环境变量和其他信息。观察到的植物表型是植物所经历的条件的结果,因此重用以前发表的数据需要为用户描述影响目标性状的所有因素。 植物表型项目的最小信息(MIAPPE)为此提供指导。

在支持数据驱动育种协作的同时保护敏感信息的另一种方法是建立联邦学习队列。在这些中,每个参与机构都使用自己的数据集训练模型,并将更新的模型对等共享,或共享到将聚合模型权重的集中式服务器。更新后的模型参数改进了基线模型,然后在机构之间共享。联邦学习在数字健康中的应用越来越多,其中数据敏感性是一个主要问题。

image.png

联邦学习的点对点或集中式方案。在点对点中,每个机构都使用自己的数据集在本地训练模型,并与其合作伙伴共享模型训练权重。在此工作流中,模型由每个机构根据需要进行聚合。在集中式方案中,经过训练的模型与一个集中式队列共享,该队列将汇总收到的模型并与利益相关者共享单个版本。

可解释机器学习

建立能够预测生物输出的模型只能被视为目标之一。模型还应该尝试解决生物学问题,这需要了解模型如何进行预测。

预测模型中的可解释性是基因组预测的一个相对较新的领域,因为GS主要目标通常是实现最佳预测性能,而模型可解释性则不那么重要。以GBLUP为例,GBLUP预测的可解释性较低,因为”大p小n”问题,基因组预测数据集很难估计单个SNP效应。

对于作物中的基因型到表型预测,可解释性提供了识别重要基因组标记的能力,然后应用这些基因组标记来减少进一步预测所需的模型输入的大小。使用可解释模型提供了选择高排名标记作为特征选择策略的机会,并且有证据表明选择重要标记的子集可以改善对给定表型的预测。这是由于大量的SNP充当预测的背景噪音,导致性能回报递减,除非大部分包含的SNP与该特征相关。

可使用诸如CGBayesNets、Harvestman之类的工具来选择具有代表性且非冗余的特征子集,然后使用特征的最佳子集和编码来训练新模型。还可以通过集成方法来改进预测,可解释的 ML 方法可用于特征选择,然后将高级特征输入到另一个模型(如DL)中。

模型解释很复杂,因为可解释性的定义是可变的,且对这些解释的评估是非标准化的。ML模型的构建应该考虑到可解释性,而不是在训练后从“黑匣子”模型中提取意义。而特征与结果的关联往往不是因果关系。

本文根据西澳大学 David Edwards(生信尤其是 pan-genome 方向的大佬)于 2022 年写的综述,翻译提炼要点。
具体参考:Danilevicz MF, Gill M, Anderson R, et al. Plant Genotype to Phenotype Prediction Using Machine Learning. Front Genet. 2022;13:822173. Published 2022 May 18. doi:10.3389/fgene.2022.822173