4.5 权重衰减

发布时间 2023-07-20 15:17:24作者: Ann-

统计学习方法中指出,在所有可能选择的模型中,能够很好地解释已知数据并且十分简单的模型才是最好的模型。如果我们想要让模型变得更小,可以通过减小模型的参数量以及减小各参数的取值范围来实现。权重衰退就是要减小参数的取值范围。具体来说是这样做的:我们用一个θ来限制各个参数wi的取值范围,使得损失函数变成了:

 也就是说,让w的各个分量的值限制在√θ内。注意两点:

(1) 通常不限制偏移量b的范围(限不限制都差不多)

(2)更小的θ意味着跟强的正则项。

然而,一般来说不会直接用这样的函数作为优化函数(损失函数),因为它的优化相对麻烦(这样形式的函数有限制条件,而常见的优化函数都是直接是一个函数表达式来让它越小越好。)。实际上是这样做的:对于每个θ,都可以找到一个λ,使得上面的目标函数等价于下面的目标函数:

这可以用拉格朗日乘子法来证明。注意:

 λ越大时,损失函数就会将w限制得越小,模型复杂度越低。

 

参数更新公式为:

 实际上仍然是在梯度的负方向上走一个小步。本来的参数更新是这样的:,这里Loss就是,带进Loss的导数就变成了上面的式子。式中(1-ηλ)中,通常ηλ<1,这表示参数会先变得小一点(在深度学习中叫权重衰退),再向梯度的反方向走一步。