线性回归模型（linear regression model）

线性回归模型：

\[f_{w,b}(x) = wx + b \]

其中，\(w\) 为权重（weight），\(b\) 为偏置（bias）

预测值（通常加一个帽子符号）：

\[\hat{y}^{(i)} = f_{w,b}(x^{(i)}) = wx^{(i)} + b \]

损失/代价函数（cost function）

一个训练样本：\((x^{(i)}, y^{(i)})\)
训练样本总数 = \(m\)
损失/代价函数是一个二次函数，在图像上是一个抛物线的形状。

\[\begin{aligned} J(w, b) &= \frac{1}{2m} \sum^{m}_{i=1} [f_{w,b}(x^{(i)}) - y^{(i)}]^2 \\ &= \frac{1}{2m} \sum^{m}_{i=1} [wx^{(i)} + b - y^{(i)}]^2 \end{aligned} \]

为什么需要乘以 1/2？因为对平方项求偏导后会出现系数 2，是为了约去这个系数。

梯度下降算法（gradient descent algorithm）

\(\alpha\)：学习率（learning rate），用于控制梯度下降时的步长，以抵达损失函数的极小值处（不是最小值！）。若 \(\alpha\) 太小，梯度下降太慢；若 \(\alpha\) 太大，下降过程可能无法收敛。
梯度下降算法：

\[\begin{aligned} repeat \{ \\ & tmp\_w = w - \alpha \frac{\partial J(w, b)}{w} \\ & tmp\_b = b - \alpha \frac{\partial J(w, b)}{b} \\ & w = tmp\_w \\ & b = tmp\_b \\ \} until \ & converge \end{aligned} \]

其中，偏导数为

\[\begin{aligned} & \frac{\partial J(w, b)}{w} = \frac{1}{m} \sum^{m}_{i=1} [f_{w,b}(x^{(i)}) - y^{(i)}] x^{(i)} \\ & \frac{\partial J(w, b)}{b} = \frac{1}{m} \sum^{m}_{i=1} [f_{w,b}(x^{(i)}) - y^{(i)}] \end{aligned} \]