关于基因组选择(GS)中准确性(accuracy)和预测能力(prediction ability)的区别?

发布时间 2023-08-09 19:07:13作者: 米源MY

在基因组选择领域,"准确性"(Accuracy)和"预测能力"(Prediction Ability)是两个常用的评价指标,用于衡量基因组选择模型的性能。

在学术研究中,两者都有用到,但没有明显区分,容易出现混用情况。

以下是一篇文章中的定义:
https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-018-5256-y

In this study, prediction accuracy (accuracy)
was defined as the Pearson correlation between
cross-validated GEBVs and EBVs as “true” or reference
breeding values estimated from ABLUP using all the
phenotypic data (y). Predictive ability (PA) was defined
as the Pearson correlation between GEBVs and adjusted
phenotypic values y’ in equation (3).

image.png
这样得到的结果差别是很大的:
image.png
image.png

这两个指标有一些相似之处,但它们关注的方面略有不同。

准确性(Accuracy):
准确性是一种常见的评价指标,用于衡量模型在预测中的正确率。在基因组选择中,准确性通常指的是模型预测的性状值与实际观测值之间的一致性。可以使用各种统计指标来衡量准确性,如均方根误差(RMSE)、平均绝对误差(MAE)、相关系数等。高准确性意味着模型的预测结果与真实情况更接近,但准确性可能受到过拟合等因素的影响。

预测能力(Prediction Ability):
预测能力是一种更综合的性能评价,它考虑了模型的泛化能力和稳定性。在基因组选择中,预测能力通常通过交叉验证等方法来评估。较高的预测能力意味着模型在新的未见数据上也能表现良好,能够有效地预测未来的性状或表现。预测能力的评估可能会涉及到不同数据集的划分,以及模型在不同子集上的性能表现。

虽然准确性和预测能力都是评价基因组选择模型性能的重要指标,但预测能力更强调模型的泛化能力和实际应用中的可靠性。因此,在选择适当的模型时,除了追求高准确性外,还应该注重模型的预测能力,以确保其在实际应用中能够取得良好的效果。

上面描述比较笼统,实际上准确性也有做交叉验证的。让我们考虑一个例子,使用两种不同的模型评估方式:准确性和预测能力。

假设我们正在研究小麦的产量,我们有一组小麦品种的基因组数据和实际产量数据。我们想要建立一个基因组选择模型,以预测新品种的产量。我们可以考虑使用线性模型(如线性回归)和贝叶斯模型(如贝叶斯线性回归)来进行预测。

准确性评估:
在准确性评估中,我们可以将数据划分为训练集和测试集。我们使用训练集来训练模型,然后在测试集上进行预测,并计算预测值与实际产量值之间的均方根误差(RMSE)作为评估指标。这个过程可以多次重复,每次划分不同的训练集和测试集,然后计算平均的准确性。

预测能力评估:
在预测能力评估中,我们同样将数据划分为训练集和测试集。然而,我们的重点在于模型在未见数据上的表现。我们使用不同的训练集和测试集划分,多次进行交叉验证。每次训练模型并在测试集上进行预测,然后计算预测误差,例如均方根误差。我们关注模型在不同子集上的泛化能力,以及它是否能够在新的小麦品种上进行准确的产量预测。

在这个例子中,准确性评估侧重于模型对已知数据的拟合程度,特别是在测试集上的表现。而预测能力评估更关注模型的泛化能力,它在多次交叉验证中评估模型在不同子集上的表现,以及对未知数据的预测能力。两者都是重要的评价指标,但它们强调的方面有所不同。