梯度下降

我们的目的是找到使预测值最接近真实值的参数，也就是使损失函数最小的参数，即求解损失函数的极值点。于是引入梯度下降的方法，这是被使用最广泛的优化算法。

梯度下降算法是通过一次次的去调整参数，使得损失函数下降到极小值。

什么叫梯度？

梯度就是下降的方向，它的值为损失函数的偏导数。学习率是下降的步伐大小。

梯度是一个向量，体现函数的变化趋势，既有方向又有大小。方向代表着函数增长的方向，大小代表函数增长的速率。

随机选择一个位置（随机初始化参数）开始梯度下降，每走一步就计算一次梯度，这是为了选择下降最快的方向，同时更新参数。

参数更新：

为什么参数的更新是用参数减去梯度？

批量梯度下降容易得到最优解，但由于每次考虑所有样本，速度很慢。

参数更新：

每次找一个样本，速度快，但是不一定朝收敛方向。

参数更新：

每次选择一部分数据计算，称为一个batch，例如10个。