样本扰动和属性扰动

发布时间 2023-11-16 09:11:53作者: 王哲MGG_AI

"扰动"指的是在集成学习过程中引入的随机性或不确定性。扰动的引入有助于增加模型的多样性,从而提高整体模型的泛化性能。在集成学习中,主要通过两种方式引入扰动:样本扰动和属性扰动。

  1. 样本扰动:

    • 在Bagging(Bootstrap Aggregating)中,通过有放回地从原始训练集中随机抽样生成多个不同的训练子集,每个子集用于训练一个弱学习器。这样,每个弱学习器都在不同的样本集上进行训练,引入了样本级别的扰动,使得每个模型都关注于数据集中的不同样本。
  2. 属性扰动:

    • 随机森林引入了属性扰动,即在决策树的每个节点分裂时,不是考虑所有特征,而是从所有特征中随机选择一个子集用于分裂决策。这就是说,每个节点的分裂不再依赖于所有特征,而是依赖于一个随机选择的特征子集。这样可以增加每个决策树之间的差异性,提高整个随机森林的多样性。

通过样本扰动和属性扰动,集成模型中的各个弱学习器变得不同,降低了模型的过拟合风险,提高了模型的泛化性能。这种扰动的引入使得集成模型更能适应不同的数据模式,从而更好地捕捉数据中的潜在关系。