高级统计 | Tricks & Review-526互联

打算写一个综合性比较强的文章。

全文分为六个章节：基本概念，回归，分类，模型选择，评价指标，无监督学习。

基本概念

1 基本概念

线性代数的知识十分有意义。

在此假定已知矩阵的加减乘运算。

1.1 矩阵的初等变换

初等变换专门设计用来执行某种操作，如行（列）交换、行（列）倍乘，或者将一个行（列）的倍数加到另一个行（列）上。

任何可逆矩阵都可以分解成初等变换矩阵的乘积，如 \(AB\) 中 \(A\) 是初等矩阵，那么称 \(A\) 对 \(B\) 施加了行变换；相反地，如果 \(AB\) 中 \(B\) 是初等矩阵，那么称 \(B\) 对 \(A\) 施加了列变换。

1.2 矩阵求逆

假定我们要求可逆矩阵 \(A\) 的逆：\(AB=I\)，那么 \(A\) 的逆就是 \(B\)，为了求得 \(B\)，我们可以在方程两侧左乘行变换的初等矩阵，直到转化为 \(B=A^{-1}\)。这也是增广矩阵行变换法求矩阵逆的原理。

当然，你也可以写成 \(BA=I\)，不过这样方程两侧就是右乘列变换，增广矩阵要竖着写（一般没这个必要，费纸）。

1.3 特征根

一个矩阵就是一个线性变换，这个线性变换对一些向量不改变方向，只是起到了拉伸作用，这些被称为特征向量：\(Av=\lambda v\)。此时矩阵表现得像一个常数。

从中衍生了特征根，特征多项式等概念。

例如有一个 \(3\times 3\) 矩阵的特征向量组成的矩阵秩为 \(2\)，那么它相当于只能对一个物体进行二维的线性变换。

1.4 相似变换

相似变换是同一个线性变换在不同基下的表达方式：\(P^{-1}AP=B\)。

任何特征向量线性无关的矩阵都可以相似对角化（充要条件）。特征值为零意味着矩阵是奇异的，即它不是满秩的，因此它不可逆。但这并不妨碍它可以进行相似对角化，关键是是否有足够数量的线性无关的特征向量。

当一个方阵 \(A\) 有 \(n\) 个线性无关的特征向量时，可以将这些特征向量作为列向量构造一个矩阵 \(P=(v_1,v_2,\dots,v_n)\)，因为 \(P\) 的向量线性无关从而可逆。

将 \(A\) 乘以 \(P\) 等价于常数乘以 \(P\) 即 \(AP=PD\)，其中 \(D\) 的对角元素是 \(\lambda_i\) 即特征值。\(D\) 就是相似对角化的结果。

实对称矩阵必能相似对角化。

概率论的定义也明确一下。

在此假定已知分布函数，密度函数，期望方差。

1.5 似然与后验概率

似然的意思是把现实中某次试验看到的，观测到的数据认为就是客观事实。一个骰子骰了六次有三次是一点，那么根据最大似然，一点的概率就是二分之一。

后验概率是根据贝叶斯公式得到的概率。

1.6 假设检验，置信区间

统计显著指的是一个结果不太可能仅由随机变异所导致，比如两个变量相关性高就是统计显著的一种表现。

当我们要证明一个事物 \(A\) 和另一个事物 \(B\) 有相关性时，我们会这么做：定义零假设 \(H_0\) 为 \(A\) 与 \(B\) 没有关系（统计不显著），定义备择假设 \(H_1\) 与之相反。然后计算 \(p\) 值，\(p\) 值表示零假设成立的概率，\(p\) 值小说明 \(A\) 与 \(B\) 很有关系。

置信区间基于样本统计量构建，如果我们不断重复抽样过程，那么其中的 \(95\%\)（对于 \(95\%\) 置信水平）置信区间将包含真实参数。

第一类错误是发生在 \(\alpha\) 内误以为“很可能有关但事实上无关”导致的；第二类错误是发生在 \(\alpha\) 外误以为“很可能无关但事实上有关”导致的。

1.7 χ2 分布，t 分布，F 分布

卡方分布是独立的标准正态分布随机变量的平方和：\(\displaystyle{X=\sum_{i=1}^n X_i^2}\)。

\(t\) 分布可表示为一个标准正态分布随机变量与独立的卡方分布随机变量平方根的比值：\(\displaystyle{T=\frac{X}{\sqrt{Y/n}}}\)。

\(F\) 分布的定义涉及两个独立的卡方分布随机变量的比值：\(\displaystyle{F=\frac{X/m}{Y/n}}\)。

\(p\) 值是这些分布的密度函数两侧（单侧）曲线下方的面积，\(z\) 值，\(t\) 值，\(f\) 值是对应的密度函数的某个横坐标，例如 \(t_{\alpha}\) 表示的是右侧曲线（从 \(t_{\alpha}\) 到 \(+\infty\)）下方的面积为 \(\alpha\) 那个点的横坐标。

卡方检验源自卡方分布，卡方统计量为 \(\displaystyle{\chi^2=\sum\frac{(O_i-E_i)^2}{Ei}}\)，当卡方统计量较大时，说明观测数据中的变量之间的相关性较强，或者至少与纯粹的随机性不相符。

回归

2 回归

2.1 线性回归

规定 \(\beta_0,\beta_1,\beta_2,\dots\) 指的是常数项, \(x_1\) 的系数, \(x_2\) 的系数等.

规定 \(\hat{y}_i\) 代表预测值, \(y_i\) 代表实际值.

线性回归也可以用于定性分类, 这时引入哑变量 (有点像独热编码). 若某个定性变量有 \(n\) 个取值, 则创建 \(n-1\) 个布尔值哑变量.

除了 \(y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots\) 这种形式的线性回归, 有时需要加入扩展: 加入交互项 \(x_1x_2\) 或加入高次项 \(x^2\).

在加入交互项时注意实验分层原则: 如果交互项的 \(p\) 值显著, 即使主效应的 \(p\) 值不显著, 也应该包含在模型中.

一旦设计高次项, 不可避免地出现高维灾难问题: 图越来越稀疏, 点难以被分类.

线性回归也可以用 \(\log X, \sqrt{X}\) 等形式替换与扩展.

2.2 多项式回归

除了 \(y=\beta_0+\beta_1x_0+\beta_2x_0^2+\cdots\) 这种形式的多项式回归, 它同样可以加入交互项.

线性回归和多项式回归置入 Sigmoid 函数 \(\displaystyle{\frac{\text e^x}{1+\text e^x}}\) 得到 Logistic 回归的最常见形式.

2.3 基函数

基函数是一种广义写法 \(y_i=\beta_0+\beta_1b_1(x_i)+\beta_2b_2(x_i)+\cdots\), 对于多项式回归来说, 基函数就是 \(b_j(x_i)=x_i^j\).

基函数主要是用来描述回归样条的.

2.4 样条函数

分段多项式拟合曲线会在结点处不连续, 甚至有时趋近无穷, 这不好. 为了解决这一点, 添加截断幂这种基函数 \(x>\xi\) 时 \(h(x)=(x-\xi)^n\), \(x\leq \xi\) 时 \(h(x)=0\), 每经过一个结点就新增一个截断幂生效.

比如一个以原点为结点的函数, 左侧是 \(ax+b\) 右侧是 \(cx+d\), 取值在 \(x=0\) 并不连续, 用一个一次样条 \(f(x)=\beta_0+\beta_1x+\beta_2h(x)=\beta_0+(\beta_1+\beta_2)x\) 就可以实现结点处都等于 \(\beta_0\), \(x<0\) 时截断幂不生效, 模型是 \(\beta_0+\beta_1x\), \(x>0\) 时截断幂生效, 模型是 \(\beta_0+(\beta_1+\beta_2)x\).

事实上, 对 \(k\) 个结点的 \(n\) 次样条, 基函数是 \(x,x^2,\cdots,x^n,h_1(x),h_2(x),\cdots,h_k(x)\), 加上截距项总共是 \(n+k+1\) 个待求的 \(\beta_i\) 参数. 用最小二乘法就可以求. 这被称为回归样条.

如果样条函数的两侧边界是线性函数, 那么称为自然样条.

还有一种光滑样条, 形如 \(\displaystyle{\text{Loss}=\sum_{i=1}^n (y_i-g(x_i))^2+\lambda\int g''(t)^2\text dt},\lambda>0\), 其中的 \(\lambda\) 用于调节惩罚力度, \(\lambda\) 太大了会导致模型趋近于直线, 方差小偏差大.

2.5 局部回归

局部回归只用到一个点附近的训练集去拟合模型.

用一个权重 \(K\) 决定具体哪些是"附近"的, 最远的点权重最小, 最近的点权重最高.

2.6 广义可加模型

广义可加模型的定义是将若干个模型相加组成一个混合模型: \(Y=Y_1+Y_2+\cdots\), 不同的 \(Y_i\) 用的是不同的模型.

GAM 的优点在于可以对每一个预测变量 \(x_i\) 去建立一个模型 \(f_i\), 从而更精准地预测响应变量, 而且由于可加性可以保持其他所有变量不动, 只看某一个单独的预测变量对响应变量的影响.

GAM 的缺点是"可加", 也就是不考虑可能存在的交互作用.

分类

3 分类

3.1 Logistic 回归

Logistic 回归直接预测分类的概率值, 基本形式为 \(\displaystyle{p(X)=\frac{\text e^{\beta_0+\beta_1X}}{1+\text e^{\beta_0+\beta_1X}}}\).

回归系数通常用极大似然估计.

在使用一个预测变量做 Logistic 回归时, 如果其他预测变量与之有关系, 那么预测模型会存在风险 ("鲨鱼冰淇淋").

3.2 LDA

线性判别分析是 Ronald Fisher 提出来的, 是一种利用贝叶斯线性分类的工具.

LDA 可用于得出分类结果的分布情况. 当 \(X=x\) 的时候 \(Y=k\), 响应变量属于第 \(k\) 类的概率是 \(\displaystyle{p_k(x)=\text{Pr}(Y=k|X=x)=\frac{\pi_k f_k(x)}{\sum\pi_i f_i(x)}}\). \(\pi_k\) 是先验概率, \(p_k(x)\) 是后验概率.

LDA 认为 \(f_k(x)\) 符合正态分布, 实际只需对 \(p_k(x)\) 的分子取最大值即可得出分到哪一类的概率最大 (每一类分母都是一样的), 最终化简得到的判别函数是线性的: \(\displaystyle{\delta_k(x)=x\cdot\frac{\mu_k}{\sigma^2}-\frac{\mu_k^2}{2\sigma^2}+\log\pi_k}\), 其中 \(\displaystyle{\pi_k=\frac{n_k}{n}}\), \(\displaystyle{\mu_k=\frac{1}{n_k}\sum_{y_i=k}x_i}\), 而 \(\sigma^2\) 是 \(K\) 类样本方差 \(\displaystyle{\sigma_k^2=\frac{1}{n_k-1}\sum_{y_i=k}(x_i-\mu_k)^2}\) 的加权平均 \(\displaystyle{\sigma^2=\frac{1}{n-K}\sum_{k=1}^K\sum_{y_i=k}(x_i-\mu_k)^2}\).

LDA 也可以用于多个预测变量的情形, 将 \(x,\mu_k\) 替换成向量, \(\sigma,\sigma_k\) 替换成 (加权) 协方差矩阵即可.

LDA 关心的是中心点以及标准差的分布.

3.3 QDA

二次判别分析的柔性水平比线性判别高, 选择 LDA 还是 QDA 无非是方差-偏差权衡问题.

QDA 的判别函数是 \(\displaystyle{\delta_k(x)=-\frac{1}{2\sigma_k}x^2+\frac{\mu_k}{\sigma}x-\frac{\mu_k^2}{2\sigma_k}+\log\pi_k}\).

3.4 KNN

K 邻近算法指的是考察离当前点最近的 K 个点, 这 K 个点最多属于的集合就作为当前点的集合.

这也是最基本的贝叶斯分类器 (贝叶斯分类器的定义是将点分入 \(\text{Pr}(Y=j|X=x_0)\) 最大的那个类的机器).

3.5 决策树

决策树既可以用于分类也可以回归, 但更多是分类.

回归决策树通常采用贪心算法, 每一步变化使得 \(\displaystyle{\text{RSS}=\sum_{j=1}^J\sum_{i\in R_j}(y_i-\hat{y}_{R_j})^2}\) 尽可能减小.

剪枝策略为代价复杂性剪枝 \(\displaystyle{\sum_{m=1}^{|T|} \sum_{x_i\in R_m}(y_i-\hat{y}_{R_m})^2+\alpha|T|}\), 其中 \(|T|\) 是终端结点数. 一个终端结点就是一个矩形区域.

决策树森林常改为装袋法, 随机森林, 提升法.

装袋法就是有放回地 (即自助法) 从样本抽样建立很多决策树, 每一个决策树都预测一个值, 然后求平均或者多数投票得到结果. 这种方法有效是因为观测值均值的方差比单一观测值的方差小.

随机森林也是有放回地抽样建立很多决策树, 但是每棵树的每个分裂点随机选取少量预测变量 (预测变量总数的均方根), 作为可以用来作为分类标准的变量.

提升法也是众多决策树的结合. 学习率 \(\lambda\) 和分裂点数 \(d\) 作为提前设定好的参数 (即超参数), 令 \(\hat{f}(x)=0,r_i=y_i\) 不断执行根据 \(r_i\) 建立 \(d\) 个分裂点的普通决策树 \(\hat{f}^b\), 然后 \(\hat{f}(x)=\hat{f}(x)+\lambda\hat{f}^b(x)\) 和 \(r_i=r_i-\lambda\hat{f}^b(x)\) 的过程.

3.6 支持向量机

SVM 寻找到是离两个类的间距最大的那条分界线 (超平面).

支持向量有很好的几何意义, 这里不作过多展开.

超平面的方程是 \(\displaystyle{\beta_0+\beta_1x_{1}+\cdots+\beta_px_{p}=0}\)

线性的 SVM 通常称为 SVC. 目标是对于每一个待预测的 \(x_i\), 最大化 \(M\): \(\displaystyle{y_i(\beta_0+\beta_1x_{i1}+\cdots+\beta_px_{ip})\geq M}\), 这通常用拉格朗日乘数法求偏导算出参数. 但是大多数情况的分类是线性不可分的. 这时要么引入非线性要么松弛化.

松弛化是对 \(M\) 乘以一个参数 \(1-\varepsilon_i\), \(\varepsilon_i\) 的和 \(\displaystyle{\sum_{i=1}^n \varepsilon_i\leq C}\). 对于第 \(i\) 个观测, \(\varepsilon_i>0\) 则间隔被拉伸, 就像是支持向量不再是"支持向量"了一样; 如果 \(\varepsilon_i<0\), 那么意味着这个观测被划分为超平面另一侧的点.

非线性指的是把高次项 \(x_1^2,x_2^2\) 等等也当作变量和超平面的法向量作点积 (其实就是几何意义), 或者用真正意义上的完全体 SVM, 即采用核函数的方法.

考虑到不是支持向量的向量对超平面本身没有贡献, 模型可以写成 \(\displaystyle{f(x_k)=\beta_0+\sum_{i\in S}\alpha_i<x_k,x_i>}\), 其中 \(S\) 是支持向量集合, 尖括号表示点积, 也就是每一个待预测的观测 \(x_k\) 只用和支持向量作点积就可以做到分类 (支持向量本身有足够多的信息, 换句话说可以推出超平面).

如果把点积 \(<x_k,x_i>\) 换成核函数 \(K(x_k,x_i)\), 那么可以得到更广义的分类器: 如多项式核函数 \(\displaystyle{K(x_k,x_i)=\left(1+\sum_{j=1}^p x_{kj}x_{ij} \right)^d}\), 径向核函数 (最常用) \(\displaystyle{K(x_k,x_i)=\text{exp}\left(-\gamma\sum_{j=1}^p (x_{kj}-x_{ij})^2 \right)}\).

SVM 也可以多分类, 有两种策略: OVO (一类对一类) 和 OVA (一类对其余).

OVO 指的是把类别两两组合, 每组都有一个胜者. 最后多数投票决定哪个是最有可能的类.

OVA 指的是把每个类和其余所有类的并集对比, 如果这个类的预测值 \(f(x)\) 最高就决定是这个类.

模型选择

4 模型选择

4.1 子集选择法

三种方法: 最优子集, 前向 (后向) 选择, 最优模型.

最优子集对于超过 40 的数据量不适用. 这也是高维灾难的表现.

前向选择和后向选择有略微差异, 后向必须满足样本量 \(n\) 大于变量个数 \(p\), 而且 \(p\) 很大的时候后向选择不好用.

最优模型用到的 C_p, AIC, BIC, 修正 R^2 在后面讲.

4.2 压缩法

两种方法: 岭回归, 套索 (LASSO) 回归.

岭回归是二次惩罚项 \(\displaystyle{\lambda\sum_{j=1}^p \beta_j^2}\), 用于防止过拟合.

套索回归是一次惩罚项 \(\displaystyle{\lambda\sum_{j=1}^p |\beta_j|}\), 不仅防止过拟合, 还能缩减变量个数.

4.3 降维法

两种方法: PCA (主成分分析), PLS (偏最小二乘).

PCA 是一种寻找方差最大的方向作为第一主成分, 第二主成分类推. 因为特征值就是拉伸系数, 通过对所有变量的协方差矩阵 (同时是实对称矩阵) 的特征值排序依次找到拉伸最大的方向, 这些方向依次就是数据在其投影方差最大的方向.

PLS 是一种依次寻找与 \(Y\) 协方差最大的 \(Z_k\), 亦即依次呈强线性关系的方法, 其中 \(\displaystyle{Z_k=\sum_{j=1}^P \Phi_{jk}X_j}\) 是线性组合构造的新变量.

评价指标

5 评价指标

5.1 误差

训练误差指的是训练集上的误差. 测试误差是测试集的误差.

一般而言, 随着拟合程度提高, 训练误差单调降低 (并不绝对), 测试误差呈现 U 形, 最低点是过拟合的临界点, 比这个点大就过拟合了.

贝叶斯误差也称不可约误差, 专门用于分类器的. 由于贝叶斯分类器总是选择 \(\text{Pr}(Y=j|X=x_0)\) 的类, 不可能有分类器比这个还准确, 而且贝叶斯分类器是一个"抽象"的概念, 因此贝叶斯误差是一个恒定值, 小于测试误差的曲线.

5.2 残差图，杠杆值

一般的残差图是残差关于预测值的散点图, 如果残差图显示出明显的规律 (比如 U 形), 就说明存在非线性关系. 有时候呈漏斗状, 说明误差项方差非恒定 (即异方差性), 这时可用 \(\log Y, \sqrt{Y}\) 等下凸函数变换使之收缩. 有时对于序列数据可能还会有误差项自相关的现象.

离群点是 \(y_i\) 远离模型预测值的点, 对模型拟合本身影响不大, 但是会提升 RSE 降低 R^2.

学生化残差图中, 残差除以了残差的标准差 (即残差标准误), 大多数数据分布在 \([-a,a]\) 之间, 绝对值超过 \(a\) 的点判断为离群点.

高杠杆点的 \(x_i\) 是异常的, 对模型拟合有很大影响. 它很好辨认, 只需要看预测变量取值不正常的点.

杠杆值 \(h_i\) 量化了杠杆作用, \(h_i\) 越大, 杠杆作用越明显.

5.3 混淆矩阵，ROC，AUC

混淆矩阵专门用于分类器, 常常是一个 2 x 2 的表格 (也可以 n x n), 横行和纵行分别作为真实值与预测值.

假阳性 (或者叫假正例) 指的是真实值为 False 但预测成了 True (就像假性近视hh), 假阴性 (或者叫假负例) 指的是真实值为 True 但预测成了 False.

召回率 (又称真阳性率) 是真实为 True 中被预测检出了是 True 的比率, 精确率 (又称预测阳性率) 是预测为 True 中真实为 True 的比率, 召回率和精确率是对偶的定义, 精确率和召回率的调和平均数就是 F1 分数.

ROC 曲线的纵坐标是召回率, 横坐标是假阳性率, 越贴近图的左上角越好. 下方面积称为 AUC, AUC 越大同样分类效果越好.

5.4 RSS，RSE，MSE，R2，Cp，AIC，BIC

RSS 是残差平方和, \(\displaystyle{\text{RSS}=\sum_{i=1}^n (y_i-\hat{y}_i)^2}\).

RSE 是残差标准误, \(\displaystyle{\text{RSE}=\sqrt{\frac{1}{n-p-1}\text{RSS}}}\).

MSE 称为均方误差, \(\displaystyle{\text{MSE}=\frac{1}{n}\text{RSS}}\).

R^2 是线性解释比例, \(\displaystyle{R^2=\frac{\text{TSS}-\text{RSS}}{\text{TSS}}=1-\frac{\text{RSS}}{\text{TSS}}}\).

C_p 是测试均方误差的无偏估计, \(\displaystyle{C_p=\frac{1}{n}(\text{RSS}+2d\hat{\sigma}^2)}\), 其中 \(d\) 是预测变量数, \(\text{RSS}\) 是训练集的残差平方和.

AIC 是赤池信息量准则, \(\displaystyle{\text{AIC}=\frac{1}{n\hat{\sigma}^2}(\text{RSS}+2d\hat{\sigma}^2)}\), 对于最小二乘法, \(C_p\) 和 \(\text{AIC}\) 是成比例的.

BIC 是贝叶斯信息准则, \(\displaystyle{\text{BIC}=\frac{1}{n}(\text{RSS}+\log(n)d\hat{\sigma}^2)}\), 惩罚项比 \(C_p\) 和 \(\text{AIC}\) 都重, 也是最常用的一种统计量.

在使用不同的评判指标确定预测变量个数时, 通常根据一倍标准差原则, 也就是选择曲线最低点在这些最低点的一倍标准差 \([\mu-\sigma,\mu+\sigma]\) 之内, 而且规模最小的模型. 这也是为什么一般都用 BIC.

5.5 R2, β0 参数修正

由于 \(R^2\) 随着模型包含的变量个数增加而增加 (RSS 随着预测变量增多而减小, 可以数学证明), 但是事实上在添加了所有正确变量后, 再增加冗余变量应该减小, 这时引入分母惩罚项, 定义调整 \(\displaystyle{R^2=1-\frac{\text{RSS}/(n-d-1)}{\text{TSS}/(n-1)}}\).

一般抽样的时候, 观测值尽可能是阳性的 (特别是阳性率非常低的时候), 但这会导致抽样比例 \(\tilde{\pi}\) 大于实际比例 \(\pi\), 导致计算出的参数 \(\beta_0\) 不准确, 需要用公式修正: \( \displaystyle{\beta_0^*=\beta_0+\log\frac{\pi}{1-\pi}-\log\frac{\tilde{\pi}}{1-\tilde{\pi}}}\).

无监督学习