梯度及梯度下降

发布时间 2023-05-25 18:39:15作者: 同淋雪

梯度下降

我们的目的是找到使预测值最接近真实值的参数,也就是使损失函数最小的参数,即求解损失函数的极值点。于是引入梯度下降的方法,这是被使用最广泛的优化算法。

梯度下降算法是通过一次次的去调整参数,使得损失函数下降到极小值。

什么叫梯度?

梯度就是下降的方向,它的值为损失函数的偏导数。学习率是下降的步伐大小。

梯度是一个向量,体现函数的变化趋势,既有方向又有大小。方向代表着函数增长的方向,大小代表函数增长的速率。

image-20230512145734070

随机选择一个位置(随机初始化参数)开始梯度下降,每走一步就计算一次梯度,这是为了选择下降最快的方向,同时更新参数。

image-20230506184623110 image-20230506184635006

批量梯度下降

参数更新:

image-20230506184729854

image-20230506184800366

为什么参数的更新是用参数减去梯度?

image-20230506185304192 image-20230506185408178

批量梯度下降容易得到最优解,但由于每次考虑所有样本,速度很慢。

随机梯度下降

参数更新:image-20230506185616115

每次找一个样本,速度快,但是不一定朝收敛方向。

小批量梯度下降

参数更新:

image-20230506185806109

每次选择一部分数据计算,称为一个batch,例如10个。