特征工程-526互联

通过结合方差阈值、特征相关性分析、单因素统计测试、递归特征消除和特征重要性等特征选择方案，在减少特征数量的同时，最大限度地保留对目标变量的关键信息，从而提升模型的效率、可解释性，并防止过度拟合的发生。

一、特征相关性分析

计算各个特征之间的相关性（可用皮尔逊相关系数）。如果有相关系数较高的两个特征，可以只选择其中一个特征，保留重要性更高或与目标变量更相关的那个。这有助于减少模型的复杂性，并提高模型的解释性。

二、特征重要性评估

随机森林的特征重要性评估通常使用的是随机森林本身提供的特征重要性方法。Boruta算法是一种用于特征选择的算法，与随机森林的特征重要性评估是相关的，但并不相同。

在随机森林中，特征的重要性是通过在训练过程中测量每个特征对模型准确性的贡献来计算的。随机森林的思想在于，如果某个特征对于构建决策树模型的过程中起到了关键作用，那么它的重要性就会相对较高。

一般来说，随机森林中的特征重要性是通过以下两种方式之一计算的：

相比之下，Boruta算法是一种用于特征选择的方法，它基于随机森林的特征重要性来判断哪些特征是显著的，哪些是次要的。Boruta算法通过在原始特征集和随机生成的阴影特征之间进行比较，确定真实特征的重要性。

总的来说，虽然Boruta算法可以与随机森林一起使用，但随机森林自身提供的特征重要性评估通常足以进行特征选择。 Burota算法主要用于确定哪些特征是显著的，以辅助特征选择的过程。

1、Boruta算法的基本步骤

Boruta算法是一种用于特征选择（Feature Selection）的算法，其目标是确定给定数据集中哪些特征是显著的。Boruta通常与随机森林一起使用，基于随机森林的特征重要性评估来进行特征选择。

以下是Boruta算法的基本步骤：

构建随机森林：
- 使用训练数据集构建一个随机森林，通常包括多个决策树。每个决策树都是在对训练数据的随机子集上进行构建的，这有助于增强模型的泛化能力。
计算特征重要性：
- 对于每个特征，通过随机森林计算特征的重要性得分。这可以使用基尼重要性、平均减少不纯度等方法。
引入阴影特征（Shadow Features）：
- 对于原始数据集，创建与原始特征数量相等的随机生成的阴影特征。这些阴影特征是无关的随机变量，它们用于模拟噪音。
重新训练随机森林：
- 使用包含原始特征和阴影特征的扩展数据集重新训练随机森林模型。
计算阴影特征的重要性：
- 对于引入的阴影特征，同样计算它们在随机森林中的重要性得分。
比较重要性得分：
- 将原始特征的重要性得分与相应的阴影特征进行比较。
- 如果某个原始特征的重要性得分显著高于阴影特征的得分，说明该特征在随机森林中被认为是显著的。
确定显著特征：
- 通过比较，确定哪些原始特征被随机森林视为显著的特征。这些特征被保留作为最终的特征集。