Paper Reading: XRRF — An eXplainable Reasonably Randomised Forest algorithm for classification and regression problems

发布时间 2023-03-23 01:54:45作者: 乌漆WhiteMoon


Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。

论文概况 详细
标题 《XRRF: An eXplainable Reasonably Randomised Forest algorithm for classification and regression problems》
作者 Nishant Jain, Prasanta K. Jana
发表期刊 《Information Sciences》
发表年份 2022
期刊等级 中科院 SCI 期刊分区(2022年12月最新升级版)1区、CCF-B

作者单位:Department of Computer Science and Engineering, Indian Institute of Technology (ISM), Dhanbad, India

研究动机

基于树的集成算法(TEA)因其较强的学习能力、鲁棒性和较高的性能受到广泛关注,TEA 主要通过构造几个 DT 并组合成一个森林用于分类和回归。总的来说,TEA 的性能受到森林中树的多样性和分类器的质量的影响。随着这些模型变得更加复杂,预测的质量通常会提高,但是却丧失了可解释性。同时现有 TEA 无法维持特征关系的可靠性,特别是当对模型精度有贡献的特征的数量与特征的总数相比很小的时候。这是因为一个特征可能对决策而言不太重要,但与其他支持特征结合使用时可以显著提高模型的准确性。相反当与其他特征结合在一起时,单独相关的特征可能在决策树构建过程中变得多余。

文章贡献

针对传统 TEA 的局限性,本文提出了一种新的可解释的合理随机森林算法(XRRF)。第一步是数据预处理,通过解析缺失数据、减少或去除噪声数据、将其规范化来提高学习性能。第二步提出了基于统计图的特征学习算法(SGFL),用于对特征分成 3 个贡献不同的子集。第三步提出了新的合理随机森林算法(RRF),实现了最良好的模型精度。最后采用决策路径特征提取方法和高度优先的相关特征集,根据应用解释模型的输出。

eXplainable Reasonably Randomised Forest

数据预处理

当数据集存在大量不相关、冗余的信息或有噪声、不可信的数据时,学习的效果就会大打折扣,因此在进行训练之前必须进行数据预处理。

本文主要使用以下 3 种方法:

数据预处理 说明
缺失值处理 如果数据集中存在更多的缺失值,则算法的学习性能会受到显著影响,此处采用基于最优传输的缺失数据插补技术。
去除噪声数据 噪声数据的存在也会阻碍学习性能,因此必须从数据集中去除噪声,此处使用了 hyper-clique-based data cleaner (HCleaner)方法。
数据规范化 数据规范化是对数据按比例缩小或扩大,此处采用 integer scaling normalisation technique 方法。

内在可解释

为了保证内在可解释性,本文提出了一种统计图特征学习(SGFL)算法,SGFL 使用特征相互依赖来提高模型的准确性。

这是通过将特征集映射到其等价图 G = (Fn,E,Wij)来实现的,其中:

符号 说明
Fn = (F1,F2,…,Fn) 一组原始特征
E = {((Fi,Fj) Fi,Fj∈Fn}
Wij Fi 和 Fj 之间的关联边权值

特征关联性的图表示

为了将特征之间的关系表示为图结构,就需要计算特定数据集中不同特征和类之间的关联边权值,本文使用绝对皮尔逊积矩相关系数。特征 Fi 与特征 Fj 之间的关联边权值 Wij 如下式(公式 1)所示,其中 vi 和 vj 分别表示特征 Fi 和 Fj 的向量。

为了找到相关特征的子集,本文提出了一种基于韦恩图的图论算法。该算法结合了三种图论算法:最小生成树(MST)、基于最大度顶点边缘去除算法(MVER)、基于最大度顶点邻居去除算法(MVNR)。

最小生成树

考虑顶点为 Fn 的无向加权图 G 和 Fi 与 Fj 之间的关联权重 Wij,生成树的代价函数定义为树中所有边的 Wij 之和,这样能得到 M 为生成树中代价最小的最小生成树。为了去除特征到特征的冗余,并保留M中特征到类标签的相关性,利用下式(公式 2)计算了特征相关阈值(Tfc)。

公式 2 中的符号的含义为:

符号 说明
Tfc 特征集 Fn 的“阈值”
Af-c 特征到类别标签的平均相关性
Af-f 特征到特征的平均相关性

基于 MST 的最小生成树算法的流程如下:

概括起来就是:

  1. 利用公式 1 为特征计算边的权重后建图;
  2. 利用 Prim 算法求出图的最小生成树 M;
  3. 利用公式 2 为边进行剪枝,对 M 进行转换;
  4. 用最小定点覆盖算法选出相关的特征集 Rs。

MVER、MVNR 算法

除了最小生成树,还提出了 MVER 和 MVNR 算法来提高内在可解释性,并根据特征对模型精度的贡献进行优先级排序。为了使用这两种算法,首先需要将 Wij 转换为 {0,1} 值来表示。转换的方法是大于 Tfc 的 Wij 值被替换为 1,较小的值被替换为 0。
MVER 和 MVNR 算法是基于图中每个顶点(Fn)的度定义的,MVER 图算法主要有四个步骤:

例如下图是 4 个特征构成的图,其中顶点 F4 的度为 3 是当前度最大的顶点。所以特征集 Re 先加入 F4,然后将端点有 F4 的边删除。删除之后图只剩下 F1 和 F2 有 1 条边连接,它们的度都为 1 是当前度最大的顶点,因此将 F1、F2 加入特征集并删除边。此时图中已经没有边了,所以算法结束得到 Re = {F4,F1,F2} 。

MVNR 图算法主要有四个步骤:

例如下图是 4 个特征构成的图,其中顶点 F4 的度为 3 是当前度最大的顶点。所以特征集 Rn 先加入 F4,然后将 F4 的邻居删除。删除之后图只剩下 F4 一个点,所以算法结束得到 Rn = {F4} 。

韦恩图

利用 3 种算法得到 3 个相关特征的输出子集 Rs、Re、Rn,接着就可以用韦恩图进行处理。根据韦恩图可以将相关特征优先级分为三个不同的类别,分别是关键特征集(PFs),主导特征集(DFs)和基本特征集(BFs)。其中 PFs 中出现的特征与特定问题的类别标签密切相关,DFs 和 BFs 中出现的特征分别与特定问题的关联有所折扣。虽然 3 个特征集与问题的关联性不同,但是所有特征集的特征将以不同的比例出现在每个特征样本中。

模型的准确性

本文提出一种合理随机森林算法(RRF),RRF 算法是一种使用树作为集合的一部分的随机子空间方法,主要通过一种改进的随机通用抽样(MSUS)方法来生成样本。

随机通用抽样(SUS)是由一种零偏差、距离最小的单相抽样方法,本文提出了一个具有 N 个等间距指针的 SUS,N 是所需选择的数量。相比轮盘赌方法而言,主要的不同在于轮盘赌只使用一次选择指针。MSUS 方法主要是为了确保高优先级特征(PFs)包含在所有样本中,同时防止多次选择相同的特征。这样可以提高模型的总体平均强度,减少了森林中相关决策树的出现。

概括一下,RRF 算法主要步骤是:

  1. 初始化 N,N对应 3 个特征子集;
  2. 初始化每个指针选择的特征数量在什么范围内;
  3. 每个指针随机选择一些特征作为样本,建 DT 后构成森林;
  4. 森林采用多数投票(平均值)来进行分类(回归)

如下图展示了一个例子,图中用用不同的颜色表示不同的特征。假设有 9 个特征,3 个特征子集分别是 DFs = {X,Y,Z}、PFs = {A,B}、BFs = {M,N,O,P}。

接着独立地从 3 个集合中筛选得到特征子集,3 个集合的特征在不同的样本中出现的概率是成比例的。

可解释性

XRRF 是一个由多棵独立的 DT 组成的集成学习模型,它使用 MSUS 方法派生的特征样本上分别训练每棵 DT。每棵 DT 都有自己的结构和方面,比如使用的特征、路由的长度以及每个树节点中的分裂节点,这些不同的结构和特征集合能用于解释 XRRF 的基本功能机制。
为了从内在可解释性和模型精度方面解释 XRRF 模型的输出,本文提出将 TFk 的特征集与 PFs 相交并推导 CFk,最后得到了最终的贡献特征集 CF = {CF1,CF2,…,CFk}。推到方式是从每棵树中输出 PFs 特征集和提取的决策路径(TF1,TF2,…,TFk),通过交叉来得到 CF。这种方法主要评估在 XRRF 的每一步中使用的每个输入特征的影响,进而以解释模型的决策或输出。

实验分析

数据集

数据集采用现实应用中的三个案例研究、混合人工数据集以及 20 个基准分类和回归数据集。三个实际应用的案例分别是 Coimbra、商务车评估数据、人力资源信息系统(HRIS),混合合成的数据集是“信用卡欺诈检测”数据集。所有数据集的概况如下表所示:

基线方法

XRRF 在 Python3.6 版本中使用 SciPy、SciKit-Learn、NumPy、Matplotlib 和 Pandas 库实现,每个数据集进行五次交叉验证,使用马修斯相关系数(MCC)和预测均方误差(PMSE)来评估。
XRRF 主要与 7 个黑盒模型进行比较,分别是 Breiman Random Forest (BRF)、极端随机森林(ERF)、XGBoost、CatBoost、DeepForest、改进随机森林(IRF)、深度回归森林(DRF)。以及两个白盒算法,分别是 LASSO、DT 算法。

三个现实案例

首先是 Coimbra 乳腺癌数据集,下图中展示了 PFs、DFs、BFs 三个特征集合,然后利用这些特征样本在森林中构建 DT。

下图将 MCC 作为模型精度矩阵值,雷达图表明所提出的 XRRF 方法其他算法。

接着是汽车评估业务数据集,下图中展示了 PFs、DFs、BFs 三个特征集合。

下图将 MCC 作为模型精度矩阵值,雷达图表明所提出的 XRRF 方法其他算法。

最后是员工流失问题,下图中展示了 PFs、DFs、BFs 三个特征集合。

下图将 MCC 作为模型精度矩阵值,雷达图表明所提出的 XRRF 方法其他算法。

人工合成数据集

人工数据集是通过向“信用卡欺诈检测”数据集添加一定比例的合成数据创建的,将这些合成数据集记为:0% 合成数据 D1、10% 合成数据 D2、20% 合成数据 D3、30% 合成数据 D4、50% 合成数据 D5。为了研究特征维数的影响,每个数据集依次删除 PFs、DFs、BFs 三个特征集合,最后再使用全部特征。如下图所示,对于该数据集而言,PFs 特征的影响要大于 DFs 和 BFs 特征集。

同时还研究了噪声强度对数据集的影响,每个数据集分别添加噪声比 5%、10%、15%、20% 计算 MCC,结果表明数据集中的噪声强度降低了 MCC 值。

基准数据集

对于基准数据集,下表显示了三个特征子集的特征数量。可以看出 PFs 中的特征数量明显低于总数量,说明最重要的贡献特征明显较小。

对于分类数据集,XRRF 在 MCC 性能优于其他算法。

对于回归数据集,XRRF 实现了最小 PMSE,并且在所有数据集上都是显著的。

DT 的多样性分析

在相同的样本情况下,森林中的不同 DT 提供不同结果的程度称为 TEAs 多样性,此处使用分歧度量(Da)来评估提议的 XRRF 的多样性。已知两棵决策树 Ti 和 Tj,S(p,q) 表示训练集的大小。其中 Ti 和 Tj 的决策分别为 p 和 q,则 S(1,1) 表示都决策为标签 1 的决策树的数量。则两棵决策树的多样性由下式得出:

然后比较这对决策树来计算完整树集 Tk 的多样性:

下图为 XRRF 与 BRF 的对比结果,雷达图表明 XRRF 在所有数据集的多样性方面表现更好,这是因为 XRRF 利用 MSMU 方法在外部生成样本来增加隐式多样性。

可解释性

内在可解释性是通过理解 XRRF 如何以三个特征子集的形式来实现的,模型的准确性是根据各种数据集的实验结果验证。实现“可解释性”的最后一步是提出与内在可解释性和准确性相关的贡献特征(CF),例如在医学案例中确定的 CF 特征是“葡萄糖”。根据数据集的特点,识别的 CF 解释了“一个‘葡萄糖’水平高的人更有可能患癌症”。例如业务案例研究中的“购买价格”特征被表示为CF,它解释了“购买价格”是增加好汽车预测类别的最重要特征。所以从实验结果表明,所提出的 XRRF 算法在模型的内在可解释、准确性和可解释之间取得了平衡。

统计验证

使用假设检验来确定实验证据的统计显著性,主要采用方差分析(ANOVA),显著性阈值为 0.05。下表显示了 F-statistic、p-value 和 Fcritical 的 ANOVA 检验结果,F-statistic 大于 F-critical 且 p-value 大大小于 0.05。因此零假设被排除,表明分类和回归实验结果的每个性能指标的均值具有统计学意义。

优点和创新点

个人认为,本文有如下一些优点和创新点可供参考学习:

  1. 本文的算法将特征建成了一张图,对于特征之间的相关性提供了一种新的视角,令人感觉耳目一新;
  2. 利用了 3 种图论算法,在特征建成的图的基础上用韦恩图进一步分成 3 个不同的特征子集,非常巧妙;
  3. 使用的 RRF 合理地运用了 3 个特征子集,构成了合理的特征子空间;
  4. 所提出的算法的各个组件都有良好的可解释性,为解释树集成模型给出了合理的方案。