小批量梯度下降-526互联

在小批量梯度下降中，试分析为什么学习率要和批量大小成正比

在标准的梯度下降中，参数的更新公式是：

θ=θ−η∇θJL(θ)\theta = \theta - \eta \nabla_\theta JL(\theta)θ=θ−η∇θJL(θ)

其中，η\etaη 是学习率，∇θJL(θ)\nabla_\theta JL(\theta)∇θJL(θ) 是损失函数 JL(θ)JL(\theta)JL(θ) 关于参数 θ\thetaθ 的梯度。

而在小批量梯度下降中，参数的更新公式变为：

θ=θ−η∇θJmb(θ)\theta = \theta - \eta \nabla\theta J(\theta)θ=θ−η∇θJmb(θ)

其中，Jmb(θ)J_{mb}(\theta)Jmb(θ) 是小批量样本的损失函数。

我们期望 ∇θJmb(θ)\nabla\theta J(\theta)∇θJmb(θ) 是 ∇θJL(θ)\nabla_\theta JL(\theta)∇θJL(θ) 的一个无偏估计，即：

E[∇θJmb(θ)]=∇θJL(θ)E[\nabla_\theta J_{mb}(\theta)] = \nabla_\theta JL(\theta)E[∇θJmb(θ)]=∇θJL(θ)

但由于每次只使用一小部分样本，所以 ∇θJmb(θ)\nabla\theta J(\theta)∇θJmb(θ) 会存在一定的噪声。这个噪声的大小和批量大小有关，批量越小，噪声越大。

为了抵消这个噪声的影响，我们可以增大学习率 η\etaη。这是因为，当学习率增大时，参数的更新幅度也会增大，这相当于在梯度方向上加入了一些噪声，和 ∇θJmb(θ)\nabla\theta J(\theta)∇θJmb(θ) 的噪声有一定的抵消作用。

所以，在实际应用中，我们通常会尝试不同的学习率和批量大小的组合，来找到最优的参数更新策略。