Nature Plants | 从卫星监测的全大陆田间试验数据中获得主要作物性状的可解释机器学习模型

发布时间 2023-11-11 16:44:12作者: 生物信息与育种


澳大利亚国立大学生物研究院研究团队使用机器学习模型分析了大规模农田试验数据和卫星数据,成功预测了重要农作物特征,并揭示了作物行为的驱动因素和复杂相互作用。

背景信息

论文背景:

预计到2050年,全球人口将增加20亿,为了可持续地养活这些人口,需要更好地理解主要农作物特征的复杂进化相互作用,并通过植物育种应用这些知识来培育新的农作物品种。

过去方案:

然而,大规模的主要农作物生长和产量数据通常对学术科学家不可用或无法获取,而且“大数据”往往导致难以理解的黑盒模型,这给植物科学提出了两个未解决的问题:如何利用可访问的大数据开发复杂和理解不足的植物行为新模型,以及如何利用这些模型生成可理解和可测试的输出。

论文的Motivation:

本研究旨在展示机器学习算法在农作物生物学中提供可靠预测的潜力,包括产量和关键农艺特征,并开发和测试可读性强的新模型。通过将卫星数据与公开可用的大型数据集(澳大利亚国家品种试验)相结合,研究人员建立了一个框架,用于训练和测试准确的机器学习模型,从而实现产量和关键农艺特征驱动因素的定量比较。这些研究结果突显了跨物种综合模型预测和理解农艺和环境对作物性能的影响的潜力,并揭示了生成可理解的机器学习模型的途径。

实验方法

本研究使用了不同的机器学习模型来预测农艺重要性状,包括蛋白质含量、开花时间和硫苷酸盐含量等。

数据集包括了来自6547个成功的田间试验的780569个试验地块的266033个品种试验组合。数据集包含了8000多个变量,如土壤样本、化学和肥料剂量以及表型特征。

研究选择了七个农艺重要性状用于训练机器学习算法。数据预处理包括对因子进行虚拟编码和对数值数据进行零均值和单位方差转换。缺失数据使用了两种方法进行插补。使用默认调整和输入参数训练了不同的机器学习算法。模型使用十折内部交叉验证进行评估。训练了产量模型来预测留存试验集和年度预测样本。使用不同的方法开发了季节内滚动预测。使用模型的启发式计算了变量重要性分数,并使用分析流程识别了常见的交互作用。

主要结果

机器学习模型在不同的预测挑战中表现出不同的性能,包括预测季末表型变异、预测季末产量和进行年度预测。模型在预测蛋白质含量、开花时间和硫苷酸盐含量等农艺重要性状方面表现出高准确性。模型的准确性因具体模型的选择而有所不同。

在仅使用播种时可用数据进行预测时,模型的准确性通常保持不变。然而,在进行年度预测时,准确性会降低。BCRF模型在预测产量方面始终具有最高的准确性,其次是PLSR模型和XGBM模型。LSVM模型的准确性较为有限。

机器学习模型的准确性通常随着使用更多年份的数据和在生长季后期进行的预测而增加。然而,在滚动预测数据中存在一些令人惊讶的模式,不同模型、表型和物种之间的准确性发生了变化。

使用跨物种数据构建模型有时会导致与单一物种数据训练的模型相当或更高的准确性。遥感数据被发现是模型准确性的关键驱动因素,去除卫星数据会导致最大的预测价值损失。

总体而言,机器学习模型在预测农艺重要性状方面显示出了潜力,准确性因具体模型和预测挑战而异。

代码获取

All codes are available in Supplementary Codes 1 and 2.

Newman SJ, Furbank RT. Explainable machine learning models of major crop traits from satellite-monitored continent-wide field trial data [published correction appears in Nat Plants. 2022 Jan;8(1):93]. Nat Plants. 2021;7(10):1354-1363. doi:10.1038/s41477-021-01001-0

更多信息请关注微信公众号:生物信息与育种