本文前2节简要介绍正则化，3至7节介绍常用正则化方法

一、正则化是什么

1.经验风险和结构风险

经验风险最小化（Empirical Risk Minimization，ERM）准则：

模型f(x)关于训练数据集的平均损失称为经验风险或经验损失：

$$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))$$

结构风险最小化（Structure Risk Minimization，SRM）准则：

结构风险在经验风险的基础上加上表示模型复杂度的正则化项。在假设空间、损失函数以及训练集确定的情况下，结构风险的定义是：

$$R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+λJ(f)$$

其中，J(f)为模型的复杂度，是定义在假设空间上的泛函。模型f越复杂，复杂度J(f)就越大，λ是其权重。也就是说，复杂度表示了对复杂模型的惩罚。结构风险小的模型往往对训练数据和未知的测试数据都有较好的预测。

2.正则化的解释

Regularization可以被解释为正则化或规范化，即对模型施加约束使其满足某种先验的规范。

从经验风险到结构风险的过程就是典型的正则化过程。

正则化就是对最小化经验误差函数上加约束，这样的约束可以解释为先验知识（正则化参数等价于对参数引入先验分布）。约束有引导作用，在优化误差函数的时候倾向于选择满足约束的梯度减少的方向，使最终的解倾向于符合先验知识（如一般的l-norm先验，表示原问题更可能是比较简单的，这样的优化倾向于产生参数值量级小的解，一般对应于稀疏参数的平滑解）。