国际水稻所为你提供了一套免费开源的表型育种数据分析流程

发布时间 2023-12-10 16:52:33作者: 生物信息与育种

背景

每年国际水稻所(IRRI)的雨养稻育种(Rainfed Rice Breeding,RRB;所谓雨养就是无人工灌溉,仅靠自然降水作为水分来源)计划都会与区域合作伙伴共享耐旱、耐盐、耐热和耐淹的育种种质进行表型评估,从不同地点的几项试验中获得原始表型数据。例如,RRB在2019年从NARES合作伙伴那里收到了大约20项试验的数据。为区域合作伙伴做数据分析,以便做出更好的育种决策,并以简单易懂的格式呈现结果。

因此,开发系统的表型数据分析流程、增强可视化结果并解释对于从数据中提取有意义的见解做出更好的育种决策非常重要。

本文概述了IRRI的RRB计划如何利用 R 及其开源工具(如 R Markdown、plotly、LaTeX 和 HTML)来开发端到端的数据分析工作流程,并设计可重复的文档,以便更好地解释、可视化和共享。一句话概括就是:everything is at one place。

分析工作流和管道概述

数据分析的工作流程分为四个主要部分:数据导入、数据清洗、数据分析和结果提取。

数据分析工作流程的示意图

在数据清洗中,展示了检查数据质量的详细程序和说明,并确保只有高质量的表型数据点才能用于下游分析,以获得可靠的基因型估计或预测。

对于数据分析步骤,详细介绍了如何使用线性混合模型 (LMM) 方法单独或联合分析数据。

在单独的试验分析中应用了从基本模型到高级模型的混合模型,考虑了实验设计因素和空间趋势。

同样,在多环境试验(MET)数据中,展示了从基本模型到高级因子分析模型的单阶段或两阶段分析方法。

在结果步骤中,演示了选择最佳模型并使用它来提取不同的结果。结果包括BLUPs、环境的遗传力、相关性和协方差矩阵、G x E BLUPs、主成分分析(PCA Biplots)来显示环境的稳定性和关系,以及获取基因型稳定性的潜在回归图。

流程示例代码与数据

用于运行本流程演示的所有分析的数据集和 R 脚本可在 GitHub 上找到:

https://github.com/whussain2/Analysis-pipeline

好不好用,是驴子是马,拉出去遛遛。

测试如果好用,那么恭喜你,一套现代化的表型育种数据管理和分析系统将免费为你所用。如果你不会测,也可以跟我交流。

数据分析

关于以上四个部分,文中均有描述,此处小编只总结数据分析部分。最好的实践是直接测试运行上述流程代码。

ASReml-R软件包中的数据分析

a)Single-trial analysis 单次试验分析

模型1:只考虑实验设计因素、区组和重复,不考虑空间趋势,即试验维度(行和列)的相关残差。区组和基因型作为随机效应。


模型2:考虑实验设计因子区组、重复、行和列,没有空间趋势。区组、行、列和基因型作为随机效应。

模型3:考虑实验设计因素、重复和区组以及空间趋势,即跨行和列的相关残差。使用区组和基因型作为随机效应。

模型4:考虑实验设计因素、重复和区组以及空间趋势,即仅跨行的相关残差。

模型5:考虑实验设计因素、重复和区组,以及空间趋势,即仅跨列的相关残差。

b) Multi-environment trial (MET) analysis 多环境试验 (MET) 分析

根据环境的数量,可以使用单阶段或分阶段方法进行MET分析。单阶段分析是分析MET数据的黄金标准。然而,分期分析更适合于数据集不平衡、试验设计因素不同的实验或试验,并避免分析大量试验的计算挑战。在分阶段或两步法中,对每个试验或环境的调整均值进行估计,并在第二步中拟合加权调整均值(相关方差-协方差矩阵),以获得每种基因型的预测均值。

Single-stage approach 单阶段方法:

Two-stage approach 两阶段方法:

lme4 R 软件包中的数据分析

表型数据建模也在 lme4 开源 R 包中进行了演示。

模型1:lme4对于以下混合模型的单独分析,相当于 ASReml 分析中使用的基本模型 1。

模型2:lme4对于组合分析,相当于ASReml-R中使用的MET模型。

提取结果和生成报告略,截取部分图如下:

Hussain W, Anumalla M, Catolos M, et al. Open-source analytical pipeline for robust data analysis, visualizations and sharing in crop breeding. Plant Methods. 2022;18(1):14.

更多信息请关注微信公众号:生物信息与育种