1. 绪论

学到什么程度：

1.1 基本术语

特征：反映事件或对象在某方面的表现或性质的事项，例如"色泽""根蒂" "敲声"，称为"属性" (attribute) 或"特征" (feature);
样本空间：属性张成的空间称为"属性空间" (attribute space) "样本空间" (samp1e space)。"例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置。x = (青绿；蜷缩；浊响)是其中一个西瓜样本
泛化:由于机器学习的目标是根据已知来对未知做出尽可能准确的判断，因此对未知事物判断的准确与否才是衡量一个模型好坏的关键，我们称此为“泛化”能力。
分布:此处的“分布”指的是概率论中的概率分布，通常假设样本空间服从一个未知“分布”D，而我们收集到的每个样本都是独立地从该分布中采样得到、即“独立同分布”。如果不是独立同分布，无法学习。通常收集到的样本越多，越能从样本中反推出D的信息，即越接近真相。
没有免费的午餐定理：众算法生而平等。脱离具体问题，空泛谈论什么算法更好毫无意义。

数据决定模型的上限，而算法让模型不断接近上限

2. 模型评估与选择

2.1 过拟合与欠拟合

上图分别为：欠拟合，正常，过拟合
图片中的是多项式回归任务。图一左边的应该是欠拟合，没有将x与o正确分类，中间的是正常的，右边的是过拟合，原因在与x的n次方中的n这个超参数设置太大，导致对训练数据过于拟合，此时应引入正则化项来惩罚次数较高从而导致过大的系数。图二同理。

2.2 评估方法

2.2.1 留出法

例如1000个样本，划700个样本为学习集，剩下300个为测试集

2.2.2 交叉验证法

"交叉验证法" (cross alidation) 将数据集\(D\)分为k个大小相似的互斥子集，\(D = D_1 \bigcup D_2 \bigcup... \bigcup D_k\), \(D_i \bigcap D_j = \emptyset (i \not= j)\) (í 每个子集尽可能保持数据分布的一致性，即从\(D\)通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余的那个子集作为测试集;这样就可获得k组训练/试集，从而可进行k次训练和测试。最终返回的是这k个测试结果的均值。显然，交叉验证法评估结果的稳定和保真性在很大程度上取决于k的取值，为强调这一点，通常把交叉验证法称为“k折交叉验证”(k-fold cross validation)。k最常用的取值为10 ，此时称为10折交叉验证，其他常用的k取值有5、20等。

2.2.3 自助法

2.3 性能度量

三种最常用的评估指标：

2.3.1 错误率与精度

错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。

2.3.2 查准率、查全率与F1

混淆矩阵（Confusion Matrix），针对二元分类问题，将实例分为正类或者负类，会出现四种情况：
（1）实例本身为正类，被预测为正类，即真正类（TP）；
（2）实例本身为正类，被预测为负类，即假负类（FN）；
（3）实例本身为负类，被预测为正类，即假正类（FP）；
（4）实例本身为负类，被预测为负类，即真负类（TN）；

查准率（Precision）：模型预测为正例数据占预测为正例数据的比例。
查全率（recall）：预测为正例的数据占实际为正例数据的比例

"平衡点 (Break-Event Point ，简称 BEP)就是综合考虑查准率、查全率的性能度量，它是"查准率=查全率"时的取值。若A的BEP大于B，则可断言学习器A优于B。但BEP还是过于简化了些，更常用的是F1度量。
\(F_1\)是基于查准率与查全率的调和平均(harmonicmean)定义的，\(F_\beta\)则是加权调和平均: