似然函数与损失函数

一、误差

对于每个样本，真实值等于预测值与误差之和。

每一个样本的误差，都是独立且同分布的，并且均服从高斯分布

由于误差服从高斯分布，误差的概率分布可表示为P(e(i))，于是theta的概率分布也可表示出来,如下

我们的目标是找出使预测值最接近真实值的参数theta，于是我们引入似然函数。似然函数的意义是表示相似程度，也就是说什么样的参数能使预测值更接近真实值。似然函数越大，就表示越接近。问题就转化为，当theta为何值时似然函数最大。

为啥似然函数里会使用累乘操作呢？这是希望通过大量数据提升准确性

然而，当样本数据数据量太大也就是m很大时，这个式子是很难求解的，于是引用对数似然的方式，因为对数可将累成转化为累加。

由于我们的目的是求最佳的theta，而不是求似然函数，所以取对数并不会改变theta。

化简对数似然函数后，式子等价于前面的常数项减去后面的未知项，要使对数似然函数最大，可让未知项最小。