AI中的过拟合和欠拟合问题以及他们的对机器学习的影响(个人感悟总结)

发布时间 2023-12-02 22:00:04作者: cyznb

1.机器学习中训练出的模型利用的数据

我们知道训练出一个模型的过程都是通过学习数据不断完善的过程的,那这些数据是什么呢?
数据集!(就是数据的集合)
数据集又分为三种(其实是两种,有一种是在其中一种里面继续分的)
通常分为训练集和测试集两部分。

  • 训练集
    通常用来训练模型,模型主要通过学习这些数据来完善模型以预测新模型
  • 验证集
    在训练集里面又分出来验证集,它是用来不断更新超参数(就是模型里面的参数,模型不断完善,完善的就是这些超参数,超参数是人为设定的,通过验证集来完善),完善模型
  • 测试集
    用来测试的数据,训练完的模型进行测试

2.误差

误差主要是方差偏差和不可避免的误差
  • 方差就是预测值的波动程度
  • 偏差是偏离原来真实值的程度

3.过拟合,欠拟合

  • 欠拟合

训练过程中训练不够,训练的数据放进去预测出来的结果与真实值差很多

  • 过拟合

训练的很好,基本完全拟合了训练数据,但是新数据来的时候不能很好的预测,即泛化能力很弱
下面这张图就是用一个靶子来展示误差和拟合的关系,我们所追求的是低方差低偏差,即打在中间且波动小的点

4.过拟合和欠拟合与方差偏差的关系

通过定义知道,方差是不稳定导致的,也就是高方差容易导致过拟合,高偏差容易导致欠拟合

5.最后,总结

  • 首先是,数据集,分为三类:测试集,验证集,训练集,其中验证集是包含在训练集里面的,验证集用来完善新模型,调整超参数,测试集用来测试训练完的模型,训练集用来训练模型
  • 然后就是误差,方差+偏差+不可避免的误差,方差是预测值的波动程度,多个结果差的很多就是很大;偏差是偏离原来真实值的程度
  • 最后是过拟合欠拟合,过拟合测试误差大,泛化能力弱,对新来的数据没办法做很好的预测,欠拟合是训练误差很大,训练程度不够
  • 补充一下,我们应该避免过拟合,因为我们训练模型的目的就是为了预测新数据!