526互联

4.5 权重衰减

发布时间 2023-07-20 15:17:24作者: Ann-

统计学习方法中指出，在所有可能选择的模型中，能够很好地解释已知数据并且十分简单的模型才是最好的模型。如果我们想要让模型变得更小，可以通过减小模型的参数量以及减小各参数的取值范围来实现。权重衰退就是要减小参数的取值范围。具体来说是这样做的：我们用一个θ来限制各个参数w_i的取值范围，使得损失函数变成了：

也就是说，让w的各个分量的值限制在√θ内。注意两点：

（1）通常不限制偏移量b的范围（限不限制都差不多）

（2）更小的θ意味着跟强的正则项。

然而，一般来说不会直接用这样的函数作为优化函数（损失函数），因为它的优化相对麻烦（这样形式的函数有限制条件，而常见的优化函数都是直接是一个函数表达式来让它越小越好。）。实际上是这样做的：对于每个θ，都可以找到一个λ，使得上面的目标函数等价于下面的目标函数：

这可以用拉格朗日乘子法来证明。注意：

λ越大时，损失函数就会将w限制得越小，模型复杂度越低。

参数更新公式为：

实际上仍然是在梯度的负方向上走一个小步。本来的参数更新是这样的：,这里Loss就是，带进Loss的导数就变成了上面的式子。式中(1-ηλ)中，通常ηλ<1，这表示参数会先变得小一点（在深度学习中叫权重衰退），再向梯度的反方向走一步。

权重深度pytorch 4.5

framework net 4.5

codeforces round 863 4.5

minhook技术4.5

存储器方式4.5