小批量梯度下降

发布时间 2023-10-01 22:38:21作者: 我记得

在小批量梯度下降中,试分析为什么学习率要和批量大小成正比

在标准的梯度下降中,参数的更新公式是:

θ=θ−η∇θJL(θ)\theta = \theta - \eta \nabla_\theta JL(\theta)θ=θ−η∇θ​JL(θ)

其中,η\etaη 是学习率,∇θJL(θ)\nabla_\theta JL(\theta)∇θ​JL(θ) 是损失函数 JL(θ)JL(\theta)JL(θ) 关于参数 θ\thetaθ 的梯度。

而在小批量梯度下降中,参数的更新公式变为:

θ=θ−η∇θJmb(θ)\theta = \theta - \eta \nabla\theta J(\theta)θ=θ−η∇θ​Jmb​(θ)

其中,Jmb(θ)J_{mb}(\theta)Jmb​(θ) 是小批量样本的损失函数。

我们期望 ∇θJmb(θ)\nabla\theta J(\theta)∇θ​Jmb​(θ) 是 ∇θJL(θ)\nabla_\theta JL(\theta)∇θ​JL(θ) 的一个无偏估计,即:

E[∇θJmb(θ)]=∇θJL(θ)E[\nabla_\theta J_{mb}(\theta)] = \nabla_\theta JL(\theta)E[∇θ​Jmb​(θ)]=∇θ​JL(θ)

但由于每次只使用一小部分样本,所以 ∇θJmb(θ)\nabla\theta J(\theta)∇θ​Jmb​(θ) 会存在一定的噪声。这个噪声的大小和批量大小有关,批量越小,噪声越大。

为了抵消这个噪声的影响,我们可以增大学习率 η\etaη。这是因为,当学习率增大时,参数的更新幅度也会增大,这相当于在梯度方向上加入了一些噪声,和 ∇θJmb(θ)\nabla\theta J(\theta)∇θ​Jmb​(θ) 的噪声有一定的抵消作用。

所以,在实际应用中,我们通常会尝试不同的学习率和批量大小的组合,来找到最优的参数更新策略。