模型评估

在进行回归和分类时，为了进行预测，我们定义了函数\(f_\theta(x)\)，然后根据训练数据求出了函数的参数\(\theta\)。

如何预测函数\(f_\theta(x)\)的精度？看它能否很好的拟合训练数据？

我们需要能够定量的表示机器学习模型的精度，这就是模型的评估。

交叉验证

回归问题的验证

把获取的全部训练数据分成两份：一份用于测试，一份用于训练。前者来评估模型。一般3：7或者2：8这种训练数据更多的比例。

如图点击量预测的回归问题

\(f_\theta(x)\)是二次函数拟合效果更好，但考虑测试数据的话，二次函数完全不行。

对于回归，只要在训练好的模型上计算测试数据的误差的平方，再取其平均值即可，假设训练数据有\(n\)个，可以这样计算。

\[\frac1n\sum\limits_{i=1}^n(y^{(i)}-f_\theta(x^{(i)}))^2 \]

对于点击量的回归问题，\(y^{(i)}\)就是点击量，\(x^{(i)}\)就是广告费。

这个值被称为均方误差或者MSE(Mean Square Error)

这个误差越小，精度就越高，模型就越好。

分类问题的验证

数据这样分配

\(\theta^Tx\)是一次函数

若\(\theta^Tx\)更复杂，可能会这样紧贴着训练数据进行分类。

我们是根据图像为横向的概率来分类，分类是否成功就会有下面 4 种情况。

可以这样计算分类的精度

\(Accuracy=\frac{TP+TN}{TP+FP+FN+TN}\)

它表示的是在整个数据集中，被正确分类的数据\(TP\)和\(TN\)所占的比例。

精确率和召回率

有时候只看\(Accuracy\)会出问题

如果数据量极其不平衡

模型把全部数据分类为 Negative,不是好模型，但精度会很高。

所以我们加入别的指标

精确率

\(Precision=\frac{TP}{TP+FP}\)

这个指标只关注 TP 和 FP。根据表达式来看，它的含义是在被分类为 Positive 的数据中，实际就是 Positive 的数据所占的比例

召回率

\(Recall=\frac{TP}{TP+FN}\)

这个指标只关注 TP 和 FN。根据表达式来看，它的含义是在 Positive 数据中，实际被分类为 Positive 的数据所占的比例

基于这两个指标来考虑精度比较好。

但是一个高一个低就不好评估，为此出现判定综合性能的指标F值。

\(Fmeasure=\frac{2}{\frac{1}{Precision}+\frac1{Recall}}\)

变形后

\(Fmeasure=\frac{2\cdot Precision\cdot Recall}{Precision+Recall}\)

F值称为F1值更准确

还有带权重的F值指标

\(WeightedFmeasure=\frac{(1+\beta^2)\cdot Precision\cdot Recall}{\beta^2\cdot Precision+Recall}\)

之前的精确率和召回率是以\(TP\)为主进行计算的，也可以以TN为主。

\(Precision=\frac{TN}{TN+FN}\)

\(Recall=\frac{TN}{TN+FP}\)

把全部训练数据分为测试数据和训练数据的做法称为交叉验证

交叉验证中，尤为有名的是K折交叉验证

把全部训练数据分为 \(K\) 份
将 \(K − 1\) 份数据用作训练数据，剩下的 1 份用作测试数据
每次更换训练数据和测试数据，重复进行 \(K\) 次交叉验证
最后计算 \(K\) 个精度的平均值，把它作为最终的精度

假设进行4折交叉验证，那么就会如图这样测试精度。

全部训练数据的量很大，不切实际增大\(K\)值会非常耗时，要确定一个合适的\(K\)值。

正则化

过拟合

只能拟合训练数据的状态被称为过拟合

有几种方法可以避免过拟合

增加全部训练数据的数量
使用简单的模型
正则化

正则化的方法

对于回归问题

\(E(\theta)=\frac12\sum\limits_{i=1}^n(y^{(i)}-f_\theta(x^{(i)})^2\)

向这个目标函数增加一个正则化项

\(R(\theta)=\frac\lambda2\sum\limits_{j=1}^m\theta_j^2\) (\(m\)是参数的个数)

一般不对\(\theta_0\)应用正则化，假如预测函数的表达式为\(f_\theta(x)=\theta_0+\theta_1x+\theta_2x^2\)，\(m=2\)意味着正则化的对象参数为\(\theta_1\)和\(\theta_2\)。\(\theta_0\)这种只有参数的项为偏置项，一般不对它进行正则化。

\(\lambda\)是决定正则化项影响程度的正的常数。

\(C(\theta)=\frac12\sum\limits_{i=1}^n(y^{(i)}-f_\theta(x^{(i)})^2\)

\(R(\theta)=\frac\lambda2\sum\limits_{j=1}^m\theta_j^2\)