R语言中的偏最小二乘回归PLS-DA|附代码数据-526互联

原文链接：http://tecdat.cn/?p=8890

原文出处：拓端数据部落公众号

最近我们被要求撰写关于偏最小二乘回归PLS-DA的研究报告，包括一些图形和统计输出。

主成分回归（PCR）的方法本质上是使用第一个方法的普通最小二乘（OLS）拟合来自预测变量的主成分（PC）。这带来许多优点：

预测变量的数量实际上没有限制。
相关的预测变量不会破坏回归拟合。

但是，在许多情况下，执行类似于PCA的分解要明智得多。

今天，我们将在Arcene数据集上执行PLS-DA，其中包含100个观察值和10,000个解释变量。

让我们开始使用R

癌症/无癌标签（编码为-1 / 1）存储在不同的文件中，因此我们可以将其直接附加到完整的数据集，然后使用公式语法来训练模型。

;

# 安装加载

library(caret)
arcene <- read.table("train.data", sep = " ",
 colClasses = c(rep("numeric", 10000), "NULL"))

# 将标签添加为附加列


arcene$class <- factor(scan("rain.labels", sep = "\t"))

现在的主要问题是：

我们如何根据其血清的MS谱准确预测患者是否生病？
哪种蛋白质/ MS峰最能区分患者和健康患者？

关于预处理，我们将使用preProc参数以精确的顺序删除零方差预测变量，并对所有剩余的变量进行标准化。考虑样本的大小（n= 100），我将选择10次重复的5折交叉验证（CV）–大量重复弥补了因减少的验证次数而产生的高方差–总共进行了50次准确性估算。

;

# 编译交叉验证设置


set.seed(100)
myfolds <- createMultiFolds(arcene$class, k = 5, times = 10)
control <- trainControl("repeatedcv", index = myfolds, selectionFunction = "oneSE")