Paper Reading: Oversampling with Reliably Expanding Minority Class Regions for Imbalanced Data Learning

发布时间 2023-12-08 10:31:48作者: 乌漆WhiteMoon


Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。

论文概况 详细
标题 《Oversampling with Reliably Expanding Minority Class Regions for Imbalanced Data Learning》
作者 Tuanfei Zhu, Xinwang Liu, En Zhu
发表期刊 IEEE Transactions on Knowledge and Data Engineering(TKDE)
发表年份 2022
期刊等级 中科院 SCI 期刊分区(2022年12月最新升级版)2 区,CCF-A
论文代码 文中未公开

作者单位:

  • School of Computer, National University of Defense Technology, Changsha 410073, China.
  • College of Computer Engineering and Applied Mathematics, Changsha University, Changsha 410073, China.

研究动机

研究背景

从不平衡数据中进行分类是机器学习和数据挖掘领域的一个挑战,该问题的主要难点在于标准分类学习方法的设计以准确性为导向,以及存在数据难度因素(如类内不平衡、类重叠、代表性样本稀缺),训练的模型在少数类上通常表现出不理想的性能。然而少数样本的正确分类在许多重要的现实应用中是至关重要的,例如疾病诊断、网络入侵检测和欺诈检测。不平衡学习方法可以分为数据级方法、算法级方法和混合方法,其中数据级算法具有以下特点:

  1. 可用性:因为只对数据本身进行操作,它们通常易于使用和实现;
  2. 有效性:不平衡数据质量的提高有利于任何分类模型的训练,已有很多文献证明过采样和欠采样都是普遍有效的;
  3. 多功能性:它们独立于特定的分类算法,也可以与算法级方法相结合,产生复杂的、有竞争力的混合方法。

研究目的

与欠采样相比,过采样技术是更基本的解决方案。由于不平衡数据分类困难的根源本质上是缺乏少数类信息,过采样技术可以通过引入新的少数样本直接加强少数类的概念表达,此外过采样技术不会遭受丢失信息丰富的大多数样本的风险。因此本文的研究主要有如下 3 个动机:

  1. 设计更有效的插值过采样算法:插值过采样算法是最简单、鲁棒和流行的过采样方法,它们方法只需要本地数据信息来生成合成样本。相反数学密集型的过采样算法包括基于概率分布的方法、结构保持方法等,在少数样本极度稀缺、特征维数与少数样本大小之比很高等情况下往往效果不好。由于少数类样本的稀缺性,少数类区域包括基于训练集的可观测区域和需要推断的潜在少数类区域,所以关键问题是如何发现少数类的潜在区域。在现有研究中,基于 KNN 和基于聚类的方法是最常见的策略,这两种策略都有各自的缺点。基于 KNN 的方法假设任意两个少数相邻样本之间的区域属于少数类,但是离群点和难分样本通常都与其他少数样本距离较远,同时这些样本及其相应的少数类邻居可能会和多数类相重叠。基于聚类的方法使用聚类算法来识别少数类的数据空间,其主要缺点是聚类参数本身难以合理设置,聚类的可靠性很大程度上取决于少数数据是否呈现清晰的聚类结构。
  2. 提高过采样技术处理多分类不平衡数据的能力:大多数过采样算法都是专门针对二分类不平衡问题设计的,不能直接应用于多分类不平衡数据,然而多分类数据更容易出现类分布不平衡的情况。一种简单的解决方法是将多分类不平衡问题转化为若干个二分类子问题,然后应用两类不平衡方法。然而任何类分解方案产生的子问题都只有部分数据的信息,其性能通常比原生的多分类的性能差。很多已有的方法通常是保守的,即它们强调避免合成少数和原始样本之间的类重叠,但是没有考虑不同少数类的合成样本之间的重叠问题。因此有必要设计一种特殊的过采样方法来处理来自不同类型样本的类重叠,从而显著提高多类不平衡数据的质量。
  3. 与集成学习方法建立协同作用:几乎所有现有的研究都集中在过采样算法的预处理能力上,但与其他类型的方法相结合来开发混合解决方案也是一个重要用途。已有的很多实验结果已证实,基于集成的解决方案通常优于数据预处理方法。因此将设计好的过采样技术嵌入集成学习中,形成正向协同,对进一步提高对不平衡数据的分类性能具有重要意义。

文章贡献

为了设计更有效的插值过采样算法,本文提出了一种新的插值过采样方法 OREM。OREM 在原始少数类样本周围找到候选少数类区域,然后利用这些候选区域识别不包含任何多数类样本的干净子区域。它们被认为是潜在的少数类区域,所以通过将合成样本填充到干净子区域可以增强少数类的表达能力。OREM 方法的思路很简单,既不涉及聚类算法的使用,也不涉及邻居参数k的调整。为了提高过采样技术处理多分类不平衡数据的能力,本文利用合成样本生成的迭代过程将 OREM 推广到多分类不平衡问题得到 OREM-M。OREM-M 的合成样本是迭代创建的,只有最近邻非原始样本或来自其他少数类的合成样本的合成样本才被接受,这样就缓解了对多个少数类进行过采样时类重叠的问题。为了与集成学习方法建立协同作用,本文将 OREM 嵌入到 Boosting 中得到 OREMBoost 算法,OREMBoost 在训练基分类器之前对每轮的训练数据进行平衡,使得构造的基分类器对多数类的偏差更小、多样性更大。通过大量的实验证明,本文提出的 OREM、OREM-M 和 OREMBoost 具有有效性。

本文方法

文章首先介绍了具有可靠扩展少数类区域的过采样方法 OREM,然后描述了 OREM 的多类版本、OREM-M 和集成方法 OREMBoost,最后对所提方法的计算复杂度进行了分析。

可靠的扩展少数类区域的过采样

方法描述

基于插值过采样方法的关键在于找到潜在的少数类区域,本文的 OREM 方法包含探索候选少数类区域(Candidate minority class regions, CMR) 和识别 CMR 内的干净子区域两个步骤。
在探索 CMR 阶段中 OREM 通过检查相邻样本的分布,向 CMR 周围的每个原始少数样本扩展。下图展示了一个在 x1 附近寻找 CMR 的例子,以 x1 为圆心、以 x1 到 x7 的距离为半径的圆形区域中,少数类样本在该区域出现的可能性很大,因此 R(x1x7) 可以看作是一个可能的少数类区域。然而 x7 之外的邻居样本大量来自多数类,说明少数样本很少出现在 R(x1x7) 以外的邻近区域,因此 R(x1x7) 可以认为是 x1 附近的最大连续 CMR。

在识别 CMR 内的干净子区域阶段,进一步利用每个少数样本的 CMR 来找到清洁区域。如果在 CMR 的一些子区域中没有出现多数类样本,则这些子区域在测试数据中出现多数类样本的概率也很低。下图展示了一个识别 x1 附近的干净子区域的示例,可见 x2,x3,…,x7 为分布在 x1 的 CMR 中的样本,这些样本被称为 x1 的候选辅助种子,用 C(x1) 表示。对于 x1 和 C(x1) 的每一个样本之间形成的子区域,OREM 检验它是否包含大多数样本,如果子区域不存在任何多数样本则为干净区域。例如图中圆形阴影区域(S(x1x2),S(x1x3),S(x1x6)……) 是 x1 的 CMR 内的干净子区域,而 S(x1x7) 则不是。

OREM 的整体流程用伪代码描述如下,首先对每个少数样本进行 OREM 找到对应的 CMR,这部分通过 discovervcmr 函数实现。discovervcmr 函数中 A(xi)={xi,…,xi(|S|−1)} 是根据样本到 xi 的距离对 S{xi} 重新排列的样本集,其中 xi1 是离 x1 最近的样本,xi2 是次近的样本,以此类推。如果连续 q 个样本 xi(k−q+1),xi(k−q+2),…,xik 在 A(xi) 中属于多数类,则以 xi 为中心,半径为 xi 与 xi(k−q) 之间的距离 (k−q) 将构成一个超球面区域 S(xi, xi(k−q)),该区域就是被发现的 xi 的 CMR(7~18行)。C(xi)={xi1,xi2,…,xi(k−q)}为分布在 xi 的 CMR 中的样本集,即 xi 的候选辅助种子。可以看到少数样本的 CMR 要么是类重叠的区域,要么是纯粹的少数类区域。

然后 OREM 进一步利用每个原始少数样本的 CMR 来识别干净子区域,通过函数 IDECLEANREG 实现。对于 C(xi) 中的每个样本 xip,如果以 xi 和 xip 的中点为中心、xi 和 xip 之间距离的一半为半径的超球区域不包含任何多数样本,则该区域是一个干净的子区域(24~32行)。注意该过程中不需要考虑 {xi(p+1),xi(p+2),…xi|C(xi)|},因为它们与 xi 的距离比 xip 大(27~32行)。将干净子区域对应的样本 xip 添加到 xi 的辅助种子集中(33~35行),以便在 xi 和 xip 之间的潜在少数类子区域填充合成样本。

最后 OREM 为每个原始少数类样本生成相同数量的合成样本,通过 GENERATE 函数实现。

方法分析

少数类样本可分为内部样本、边缘样本、离群点,例如下图中的 xi、xb 和 xo

这些样本具有以下特点:

  1. 内部样本:几乎所有邻近少数类样本都可以作为其辅助种子;
  2. 边缘样本:应谨慎选择辅助种子,如果选择不当可能导致合成样本被填充到多数类的区域。此外,在辅助种子中加入一些边缘多数样本是有用的,因为在边缘多数样本和少数样本之间生成的合成样本可以将少数样本的分布前沿推向多数类区域,打破了合成样本仅在原始少数样本的凸壳中生成的限制;
  3. 离群点:过采样离群点时产生有噪声的合成样本的概率很大,因此谨慎的做法是抑制生成的合成样本向邻近区域扩散。

因此在过采样的过程中,这三种少数类样本应该区别对待。以往的研究试图使用类似 KNN 的分布来区分这三种样本,然而找到一个合适的 k 值是很难甚至不可能的,仅使用一个统一的 KNN 很难完全反映所有少数样本的位置特征。本文的 OREM 不需要明确划分少数样本,而是通过自适应确定辅助种子集对上述三种类型进行判别。

  1. 内部样本:它们的 CMR 几乎是一大块纯少数类区域,如上图所示 xi 的 CMR,此时会将大量邻近的少数类样本作为辅助种子。
  2. 边缘样本:OREM 可以通过识别干净子区域来选择辅助种子,例如考虑下图的情况,因为 S(xbxb1) 是包含多数样本的子区域,因此 xb1 不会是 xb 的辅助种子。此外由于在多数类前面的边缘多数类样本可以与边缘少数样本形成清洁子区域,因此它们很有可能成为边缘少数样本的辅助种子。这样有利于将少数样本的分布前沿向多数类区域扩展,如下图中的 S(xbxb2) 正是这种情况。
  3. 离群点:它们的 CMR 将是小而特定的,因为几乎所有邻近的样本都来自多数类,因此 OREM 可以防止生成的合成样本扩散到离群值的邻近区域。


与基于 KNN 的插值过采样方法相比,OREM 避免了参数 k 的使用。如果 k 值很小,则会产生几乎重复的合成样本,特别是对内部少数样本进行过采样时。如果 k 设置得很大,当边缘少数样本和异常值被过采样时,过拟合问题可能会很严重。与基于聚类的插值过采样方法不同,OREM 不要求少数样本呈现清晰的聚类结构,打破了合成样本只落在原始少数样本凸包中的障碍。

多分类的 OREM-M

与两类不平衡的问题相比,多类不平衡问题意味着类重叠更加严重、类别内部不平衡显得更具挑战性。尤其是类重叠问题是过采样方法需要特别处理的问题,多类不平衡的情况下少数类的合成样本不仅会与多数类样本重叠,还将和其他少数类样本重叠。由于 OREM 在干净区域生成的合成样本不包含任何多数样本,解决了合成少数类样本和多数类样本的类重叠,然而从不同少数类的合成样本来看,没有避免类重叠的机制。为了解决这一问题,本文将 OREM 与合成样本生成的迭代过程结合起来,提出了面向多类的过采样算法 OREM-M。
如下伪代码描述了 OREM-M 的过程,OREM-M 首先通过调用 PREPARECLEANREG(第 2 行) 来预先计算每个少数类样本的辅助种子,PREPARECLEANREG 使用算法 1 的 DISCOVCMR 和 IDECLEANREG 来找到每个少数类样本的辅助种子(算法 2 的 19~27 行)。接下来 OREM-M 通过以下过程迭代生成合成样本:

  1. 从 ζ (4~5 行)归一化分布 sampling_distr 采样一个少数类,样本数量较少的少数类在占领干净子区域方面具有更高的优先权;
  2. 从考虑的少数类中抽取一个少数样本,并尝试为它创建一个合成样本(6~7 行);
  3. 如果创建的合成样本的最近邻居属于另一个少数类,则该合成样本将被丢弃,以便合成样本不会靠近其他少数类的区域(8~14 行)。如果最近的邻居是来自另一个少数类的合成样本,则这个最近的邻居样本也会被删除(第 11 行)。

OREM 和 Boosting 的结合

现有的基于 boosting 的集成方法通常是在构建基分类器之前,采用重采样技术对 boosting 中每轮训练数据进行预处理。将重采样和 boosting 相结合有两个原因:

  1. 重采样可以平衡训练数据的类分布,减轻基分类器对多数类的偏向;
  2. 通过增加新的少数类样本或减少部分多数类样本可以鼓励训练数据的多样性,增加基分类器的预测多样性。

本文提出的 OREMBoost 与传统的基于 boosting 的集成方法相似,算法流程如下图伪代码所示。主要有两个地方与以往的集成方法不同,分别是在第 1 行中 OREMBoost 利用 preparrecleanreg 函数,基于所有少数类的每个少数类样本预先计算出辅助种子。以及在第 8 行中使用预先计算的所有少数类样本 A 的辅助种子和第 t 轮的权重分布 Dt 一起对原始不平衡数据 S 进行过采样,通过函数 OREMOVER 实现的。将这两行代码所示的步骤相结合,就可以得到训练第 t 个基分类器的平衡数据集 St。

利用 preparrecleanreg 和 OREMOVER,将辅助种子的识别和合成样本分别嵌入到 boost 框架中。首先由于 OREM 利用将合成样本生成到清洁区域来可靠地扩大少数类区域,因此正确识别清洁区域是关键步骤。如算法 2 的 preparrecleanreg 函数所示,对于任意属于少数类 c 的少数样本 xci,基于整个训练数据获取辅助种子可以确保找到的干净区域是可靠的。其次,辅助种子的获取是 OREM 中最耗时的部分,因为需要识别原始少数类样本附近的清洁子区域。将函数 OREMOVER 置于 boost 迭代过程之外,可以显著降低 OREMOVER 迭代过程的时间复杂度。
在实现 OREMOVER 时,原始数据 S 按照类别被划分为多个样本子集 S1,…,S|C|,c=1,2,…,|C|。然后对于每个子集 Sc 根据权重分布进行替换采样得到 S^c (第 18 行),这样 Sc 的一些原始样本可能不会被包含在 S^c 中,经常被错误分类的样本由于权重高可能会在 S^c 中多次出现。OREMOVER 只对 S^c 的样本进行过采样(19~23 行),因为 S^c 相对于 S 是可变的,同时保持了权重越高的样本通过生成更多的合成样本得到更多关注的学习机制,有助于增加数据的多样性。

计算复杂度

令样本数、少数类样本数和合成样本数分别为 n、nmin、ns,类的数量为 |C|。OREM 和 OREM-M 中最耗时的基本操作是样本间距离的计算,为了便于分析,只计算所提方法的基本操作的执行次数。
OREM 包括找到每个少数样本 xi 的 CMR 和识别 xi 的 CMR 内的干净子区域两个步骤。第一步 OREM 需要获得 xi 的最近邻列表来检查相邻样本的分布,需要计算 xi 与其他每个样本之间的距离,复杂度为 (n−1)。第二步的时间复杂度取决于其 CMR 中分布的样本量,由于在 xi 的 CMR 中最多有 (q−1)∗(nmin−1) 个多数样本,因此每个少数类样本 xi 最多拥有的候选辅助种子数量如下公式计算。

为了确定离 xi 最近的第 p 个候选辅助种子 xip 和 xi 之间的区域是否为干净的子区域,OREM 首先需要计算 xip 和 xi 的中点 xc 表示,然后计算 xc 与 xi 的前 p−1 个候选辅助种子中的每个多数样本之间的距离。
综上所述,距离计算次数最多的情况如下公式得到:

将第一步和第二步相加,OREM 的最坏情况复杂度由如下公式得出。

同理,OREM-M 的时间复杂度和 OREMboost 中 OREM 过采样的的计算开销均为 O(nmin*n2)。不过这个最坏的复杂度是从一个非常苛刻的情况来分析的,实际情况下的计算开销往往小于当前的理论分析的结论。

实验结果

二分类数据集实验

实验设置

该实验使用了 UCI 中的 28 个两类不平衡数据集,这些数据集的详细信息如下表所示。

分类器方面选择了三个常用的分类器,分别是 C4.5、NN、SVM,每个分类器分别调参。评估指标选择 F1、G-mean 和 AUC,每个数据集上使用五折交叉验证运行 10 次取平均结果。同时使用假设检验来验证所提出的方法与其他算法相比是否具有显著的优势,每次比较都使用 Wilcoxon 符号秩检验来比较一对方法。实验时对不平衡数据的少数类进行过采样,直到获得完整的平衡类分布。

对比实验

此处选择了 8 种具有代表性的过采样方法与 OREM 进行比较,分别是基于 KNN 的插值过采样方法 SMOTE 和 FWSMOTE、基于聚类的插值过采样方法 MWMOTE、结构保持过采样方法 INOS、基于概率分布的过采样方法 RACOG 和 wRACOG,以及最近提出的两种过采样算法 RBO 和 GDO,这些方法的参数均采用相应文献中的推荐值。

得到实验结果后使用假设检验分析 OREM 和其他每一种过采样方法之间是否存在显著差异,结果如下表所示。“Original”表示对原始不平衡数据的预测性能。可以看到 OREM 在大多数情况下可以获得统计上更优越的性能,表明 OREM 与其他两类过采样算法相比是非常有效的。

为了确定 OREM 相对于其他过采样方法的性能优势,比较了所有对比算法的 recall、precision 和平衡精度(BA)性能。实验结果表明在三种基本分类器上,OREM 分别在 recall、precision 和 BA 方面达到了良好、中等和最佳的平均排名。表明与其他过采样技术相比,OREM 可以在少数类上提供较高的准确性,而不会严重损害多数类的准确性。

消融实验

OREM 包括两个主要步骤,分别是找到每个少数样本周围的 CMR,和在每个少数样本的 CMR 内识别干净的子区域,与干净子区域相对应的候选辅助种子最终被用作考虑的少数样本的辅助种子。根据上述步骤,可以直接得到以下 4 种 OREM 的变体:

  1. 没有步骤 1 的 OREM (OREM w/o S1):去掉步骤 1,即所有其他样本都是考虑的少数类样本的候选辅助种子。
  2. 修改步骤 1 的 OREM (OREM w/m S1):该变体将少数样本的 CMR 确定为由少数样本主导的最大 k 近邻。
  3. 去掉步骤 2 的 OREM (OREM w/o S2):去掉步骤 2,即所有候选辅助种子直接被识别为合格的辅助种子。
  4. 修改步骤 2 的 OREM (OREM w/m S2):放宽作为辅助种子的条件,即与少数样本占主导地位的子区域相对应的候选辅助种子可以作为辅助种子。

对 OREM 及其变体在两类不平衡数据集上的性能结果进行 Wilcoxon 符号秩检验,显著性检验结果如下表所示。可以得到两个观察到 OREM 在任何度量和分类器上都不明显次于所有的变体;在 NN 分类器上 OREM 明显优于 OREM w/o S2 和 OREM w/m S2;在 SVM分类器上,OREM 与 OREM w/o S1 和 OREM w/m S1 在 F1 和 G-mean 上存在显著性差异。因此与四种简单的变体相比,OREM 更加健壮。

一种可能的解释是,如果消除 OREM 的第一个步骤,由于 CMR 在原始少数样本附近的区域不受约束。特征空间中的空心区域被识别为干净区域的问题将会加剧,落在空心区域的合成样本会削弱过采样的效用。忽略 OREM 的第二步或放宽作为辅助种子的条件可能会增加将合成样本填充到大多数区域的风险,从而混淆后续的分类学习。

调参实验

OREM 的唯一参数是计数参数 q,它会影响 CMR 的大小。较小的 q(例如 3)可能导致 CMR 不能完全展开;相反过大的 q 会导致发现的 CMR 包含相当一部分空心区域,增加进一步识别干净子区域的计算成本。下图是 OREM 在 7 个数据集上随 q 的不同而变化的 AUC,结果表明当 q 为 5 或 7 时 OREM 的性能更好,当 q≥9 时 OREM 的性能一般会下降,因此 5 到 7 之间的值对于 q 的设置是合理的。

正文中使用的二分类数据集是低维的,OREM 隐式假设如果 q 个多数样本连续出现在最近邻列表中,则为密集多数区域。在高维数据中,这种假设的合理性会被降低,因为样本之间距离的区分被削弱了。在补充材料中提供了一个额外的实验来验证 OREM 是否适用于高维不平衡数据集,结果表明与其他过采样方法相比 OREM 并没有明显的优势。本文认为应该开发定制的过采样解决方案,以便有效地处理高维不平衡问题。

多分类数据集实验

该实验选择 21 个真实的多分类不平衡数据集,这些数据集的详细信息如下表所示。

分类器和假设检验和二分类使用相同的实验设置,由于 F1、G-mean 和 AUC 不能直接用于评估多类不平衡数据的分类性能,此处使用多类版本 macro-F1、MG 和 MAUC。考虑到在多类不平衡数据中可能存在多个多数类,对所有类进行过采样,使其与最大类的大小相同的重采样策略将是耗时的。本文参考其他文献的建议,只对不平衡程度大于 1.2 的类进行过采样,直到每个类的不平衡程度不高于 1.2。
单个类的不平衡度使用如下公式定义,其中 |C| 为类数,nci 和 ncq 分别为 ci 类和 cq 类的样本数。

对比实验

对比实验选择 4 种过采样算法与 OREM-M 进行比较,分别是 SMOTE、MDO、之前的工作 SMOM 和 MC-RBO,其中后三种方法是专门为多类不平衡问题设计的,所比较的方法均采用相应文献中的推荐参数值。在 C4.5、NN、SVM 分类器上比较所有算法的 macro-F1、MG、MAUC,根据实验结果进行了 Wilcoxon 符号秩检验,结果如下表所示。可以看出,OREM-M 在大多数情况下比其他比较过采样方法在统计上更好,表明在多类不平衡问题上 OREM-M 具有较高的竞争力。

消融实验

将 OREM 推广为 OREM-M 主要是结合了迭代生成过程,OREM 的另一个直接的扩展是采用一对全的方式来处理多类不平衡问题,即每次将被过采样的类视为少数类,然后将所有剩余的类视为多数类。称这种简单的扩展为 OREM-S,为了验证迭代生成过程是否能提高 OREM 的性能,将 OREM-M 与 OREM-S 进行比较。下表给出了 OREM-M 和 OREM-S 在多类数据集上的平均结果和平均排名。可以看到 OREM-M 在大多数情况下都优于 OREM-S,表明合成样本的迭代生成方式确实可以提高 OREM 处理多类不平衡数据集的能力。因此在提高多类过采样算法的性能方面,抑制不同少数类合成样本之间的类重叠是一个值得探索的问题。

下一个问题是这种迭代生成过程是否也可以受益于其他过采样算法题,此处将 SMOTE 与这个过程(称为 SMOTE-M)结合起来,然后和 SMOTE 进行比较。从上表可见 SMOTE-M 没有表现出比 SMOTE 更强的竞争力,这是因为 SMOTE 与 OREM 的主要区别在于 SMOTE 不能保证合成样品只落在清洁区域。检查生成的合成样本的最近邻居是否属于不同的少数类,可能不足以有效抑制类重叠,特别是发生在合成少数和多数样本之间。

OREMBoost 实验

实验设置

下表展示了对实验中加入的集成算法的简要描述信息,所有集成方法均采用 CART 作为基分类器。基分类器个数设置为 40 个,每次迭代的训练数据被重新采样到一个平衡的类分布中。

对比实验

二分类数据集上,对集成方法的实验结果进行 Wilcoxon 符号秩检验,OREMBoost 与其他综合方法的显著性检验结果如下表所示。可以发现,在 F1 和 AUC 上 OREMBoost 与其他方法之间均存在显著性差异,对于 G-mean OREMBoost 明显优于 AdaB、SMOTEB、RBB 和 SplitBal,低于结合欠采样的集成解决方案 BalanceC、EasyE、SPE 和 HDE。
这四种集成方法的 G-mean 表现优异,是因为 G-mean 值对少数类精度的提高普遍更为敏感,对少数类具有较高的预测精度。具体来说,由于移除多数样本,清空了相当大的多数类的空间。这直接有利于在更广泛的区域内对少数类别的概念进行建模,从而提高少数样本的召回率。然而 BalanceC、EasyE、SPE 和 HDE 在 F1 和 AUC 中没有表现出优越的性能,表明在这些方法上多数类的性能可能会受到严重损害。

多分类数据集上,对集成方法的实验结果进行 Wilcoxon 符号秩检验,实验结果如下表所示。可以看出,OREMBoost 在几乎所有情况下都明显优于其他被比较的方法,表明 OREMBoost 在多分类数据集上也是一种有竞争力的集成方法。

在补充材料中,实验从准确性和多样性的角度深入分析了 OREMBoost 的性能优势。结果表明 OREMBoost 的优势在于基分类器在不严重损害多数类性能的情况下,大幅提高了少数类的平均预测精度。结果表明在大多数迭代中,经 OREM 处理的训练数据更有利于对少数类区域进行准确建模。

优点和创新点

个人认为,本文有如下一些优点和创新点可供参考学习:

  1. 基于理论分析,本文提出了一种基于候选少数类区域的测度,对少数类样本合成空间的确定设计了一种行之有效的方案;
  2. 本文方法不仅适用于二分类,还能拓展到难度更高的多分类不平衡问题,并能和集成算法结合;
  3. 实验内容丰富,分析过程很详细,包括了本文方法在不同场合下的有效性。同时有些实验结果也结合了实验指标的性质,例如结合 G-mean 的性质进行讨论。