Paper Reading 是从个人角度进行的一些总结分享，受到个人关注点的侧重和实力所限，可能有理解不到位的地方。具体的细节还需要以原文的内容为准，博客中的图表若未另外说明则均来自原文。

论文概况	详细
标题	《A hybrid deep forest-based method for predicting synergistic drug combinations》
作者	Lianlian Wu^1,2,5, Jie Gao^4,5, Yixin Zhang^2,5, Binsheng Sui³, Yuqi Wen², Qingqiang Wu³, Kunhong Liu³ Song He², Xiaochen Bo^1,2,6
发表期刊	Cell Reports Methods
发表年份	2023
期刊等级	Cell 子刊
论文代码	https://github.com/Lianlian-Wu/ForSyn

作者单位：

Academy of Medical Engineering and Translational Medicine, Tianjin University, Tianjin 300072, China
Department of Bioinformatics, Institute of Health Service and Transfusion Medicine, Beijing 100850, China
School of Film, Xiamen University, Xiamen 361005, China
Department of Epidemiology and Health Statistics, School of Public Health, Fujian Medical University, Fuzhou 350122, China
These authors contributed equally

研究动机

在抗癌药物方面许多肿瘤不可避免地对单一药物产生耐药性，为克服单一药物的局限性，联合用药已成为一种新的治疗方法。但是不同药物的组合方式非常多，在如此大的药物组合空间中进行大规模的搜索效率低下。为了解决这些问题，很多研究者使用了数学建模或者深度学习的方法，其中几乎所有用于药物联合预测的深度学习方法都是基于 DNN 实现的。但是在联合用药数据集中，涉及协同药物联合的少数类样本通常很少。虽然之前的方法取得了较高的综合预测性能，但它们都是基于训练样本在每个类中的分布是平衡的假设下实现的，忽略了类不平衡的问题。
特别由于少数类的样本特别少，对于 DNN 的方法而言容易出现过拟合。此外在以往的研究大多只利用几种特征来构建特征集，如果使用更多种的特征类型，会导致样本数量的减少和样本特征维度的增加。基于 DNN 的方法往往依赖于大规模的数据集，在中小型数据集上难以保持其预测性能。

文章贡献

为了解决联合用药数据的不平衡、高维、样本数量有限的问题，本文首先构建了一个由药物的物理、化学和生物特性组成的特征集，包括了丰富的生物学信息。特征空间的每个维度都有特定的含义，便于进行可解释性分析，找出预测过程中的关键特征。针对这种不平衡的高维中型数据集，提出了一种改进的基于 Deep Forest 的模型 ForSyn 来预测协同药物组合。ForSyn 设计了两个新的森林单元嵌入到模型架构中，一种是基于亲和传播聚类和分层欠采样的 RF 算法，该单元旨在解决类不平衡问题；另一种是基于数据复杂度降维的极端树森林(ETF)算法，主要用于处理高维数据问题。实验方面比较了 12 种算法在 8 个数据集上的性能，结果表明在大多数情况下具有所有特征类型的 ForSyn 会获得最佳性能。然后对一组先前未测试的药物组合进行细胞实验进一步证实了 ForSyn 的预测能力，最后对 ForSyn 提取的关键特征进行了可解释性分析。

本文工作

数据集构建

本文收集了在不同癌细胞系中测试的药物组合作为数据集，共包括 3192 个样本，其中 200 个样本被分为少数类，剩下 2992 个样本作为多数类，不平衡率接近 15。同时特征集由多种特征类型组成，所有的特征类型都被证明在其他药物相关的预测任务中是有效的。为了进一步研究不同特征对分类性能的影响，按照不同的特征组合共生成了 8 个不同的数据集，一个样本代表特定癌细胞系上的药物组合，如下表所示。

ForSyn 模型

针对不平衡、高维和中等规模的数据集，本文提出一种多层级联结构的模型 ForSyn，如下图所示。在每个级联层中嵌入两种新颖的森林作为单元，一种是基于聚类和分层欠采样(RF-CUS)的不平衡学习方法，另一种是基于数据复杂性降维(ETF-DR)的处理高维特征的 ETF。

在 ForSyn 中，l=1…L 表示每一层的索引，每层有 T 个单元，t=1…T 表示该单元在每个级联层中的索引，p^t,i_i,j 表示第 l 层第 t 个单元的森林预测样本 xi 属于第 j 类的概率。在不平衡数据的二值分类中，多数类和少数类分别用 -1 和 1 表示，满足如下公式。

在预测未知样本时，每个单元生成一个类向量 [p^t,i_i,-1, p^t,i_i,1]，它与原始特征向量相连接作为下一层的输入，实现前一层的分类结果可以指导下一层的分类的过程。设 Cl 为第 l 层，Fl 为前 l 层的级联，则层与级联的关系可表示为如下公式。

对于未知样本 xi，最后一个级联层(CL)的输出如下公式所示。在训练过程中级联采用贪心的方式生长，自适应地确定级联层数。

RF-CUS 单元

RF 在基分类器训练时会进行自助法采样和随机特征选择，在特征空间和样本空间上保证了集成模型的多样性，然而 RF 不能有效地处理不平衡数据。如果直接对 RF 使用欠采样构造平衡数据集，一些可能在分类时起关键作用的训练样本可能会在欠采样过程中丢失，造成了信息缺失的问题。为了克服这一缺陷，本文设计了一种基于 AP 聚类和分层欠采样的欠采样方法构造平衡训练集，最小化随机采样带来的信息损失。
欠采样方法与 RF 框架相结合能重新平衡每个决策树的训练集，该单元的框架如下图 A 所示。图 B 显示的是基于聚类的分层欠采样，聚类的目的是使相似性高的样本尽可能集中，分层抽样就是以均衡的方式从每个聚类中获取样本。传统的聚类方法需要预先设定聚类的数量，在训练数据中随机选择初始聚类中心，通常需要多次运行才能找到相对较好的初始集群中心。而 AP 聚类不需要预先设置集群的数量，具有更好的聚类性能和更少的聚类时间。

RF-CUS 单元的算法流程如下伪代码所示，对 AP 聚类结果进行分层抽样，以获得更具代表性的多数类样本，重采样后多数类的样本数量等于少数类的样本数量。

ETF-DR 单元

ETF 可以看作是 RF 的一种变体，ETF 使用所有的特征生成树结构，每个分割使用的特征是随机选择的。ETF 的生长将持续到每个叶节点只包含同一类的样本，本身更适合处理不平衡数据，但是高特征维数和特征的随机选择会加深树的深度导致过拟合。为了克服 ETF 的问题，本文提出了一种贪婪降维方法，该方法将数据复杂度度量与贪婪算法相结合来降低特征的维度。
数据复杂度度量被定义为两个类之间的条件分布的尾部重叠部分，分别找出不同类别中特征的最大值和最小值，使用如下公式计算它们之间的重叠面积。其中 max(fi,cj) 和 min(fi,cj) 是指第 j 类中第 i(i＝1…d) 个特征的最大值和最小值，d 为特征维度，j∈[1,2] 对应于两个类。重叠区域的值范围为 [0,1]，该值越小表示不同类别之间的特征重叠区域越小，重叠区域越小则特征对分类结果的贡献就越大。

ETF-DR 单元的算法流程如下伪代码所示，首先使用数据复杂度来评估每个特征的分类贡献，然后结合贪心算法对局部最优特征子空间进行逼近，最后使用被选择的特征训练 ETF。

实验结果

对比实验

对比算法共有 12 种高级算法进行了比较，这些方法如下表所示。评价指标使用 F1、AUPR、recall、MCC、G-mean，F1 为主要评价指标，结果取 10 次五折交叉验证的平均值。

算法类型	数量	详细
基于 DNN 的方法	4	DeepSynergy、MatchMaker、TranSynergy、SynPathy
基于 DF 的方法	2	DF、DCEDForest
基于 GNN 的方法	2	DeepDDS-GCN、DeepDDS-GAT
集成学习	2	XGBoost、RF
不平衡学习方法	2	RUSBoost、balanced bagging

下面的 5 张表显示了所有算法在这五个指标上的结果，可见 ForSyn 在 F1、AUPR、MCC、G-mean 四个指标上排名第一，显示了其优越的预测性能。

然后利用 Friedman 检验和 Nemenyi 检验分析了对比算法之间的性能差异，检验结果如下图所示。

下图显示了 ForSyn 和其他算法在 F1 上的性能差异，可以看出只有 XGBoost、RF 和 balanced bagging 这三种算法在数据集 1、2、4上的性能略好于 ForSyn，在所有数据集上 ForSyn 都优于其他比较算法。

为了评估新的未知细胞系、药物和药物组合的泛化性能，将训练集和测试集按细胞系、药物或药物组合进行打乱进行了三种交叉验证，该验证方法的原理如下图所示。

实验结果如下表所示，所有算法的评估值均低于随机五折交叉验证，ForSyn 在 F1 评分、AUPR 和 MCC方面的表现最好。

调参实验

RF-CUS 单元中主要参数是多数类的欠采样比，对基本分类器的数量和欠采样比率对 RF-CSU 单元性能的影响进行实验。结果如下图 G 所示，可见当欠采样比为 0.4 时 RF-CSU 单元的性能最佳，同时决策树数量的增加并不会带来模型性能的显著提高。ETF-DR 单元先根据数据复杂度对所有特征进行排序，然后执行贪婪的向后收缩，迭代地减少特征维数，步长为 300。实验结果如下图所示，可见当保留维度为 1806、决策树的个数设置为 100 时，ETF-DR 单元的表现最佳。

不同配置下 ForSyn 的 F1 如下表所示，可以看出 ForSyn(RFC2+ETFD2) 和 ForSyn(RFC3+ETFD3) 模型的平均排名相同，ForSyn(RFC4+ETFD4) 的平均排名略低，可见随着单元数的增加，模型的性能并没有明显的提高。根据奥卡姆剃刀原则，实验设置最终选择 ForSyn(RFC2+ETFD2)。
综上所述，ForSyn 的最佳配置是在每个级联层中放置两个 RF-CUS 单元和两个 ETF-DR 单元。每个 RF-CUS 单元包含 100 棵决策树，欠采样比设置为 0.4。训练 ETF-DR 单元时保留排序后特征的前 1806 个维作为训练集，基分类器数量设置为 100 个。

此外还对其他森林模型作为 ForSyn 的单元进行了测试，包括 AdaBoost(ADA)、Bagging(BAG)和梯度提升(GBC)。下表展示了 ForSyn 和这些模型之间的性能比较，可见采用 2 个 RF-CUS 和 2 个 ETF-DR 单元的 ForSyn 获得了最佳性能。

消融实验

对 ForSyn 进行消融实验，实验结果如下表所示。可见当去掉 ETF-DR 后模型性能下降幅度最大，RF-CUS 单元次之，可见本文设计的两个单元比其他集成单元更适合作为本文框架中的单元。

湿实验

为了证实 ForSyn 的有效性，本文进一步应用 ForSyn 来预测以前没有测试过的新型协同药物组合，对预测的新型药物组合进行了细胞实验。生物实验的结果如下图所示，由于本人缺乏相应的生物知识，对于实验结果不进行解释，结论就是 ForSyn 在少数类样本中的预测准确性被有效证明。

可解释性分析

对于生物信息计算的工作来说，模型解释是至关重要的步骤。本文的 ForSyn 可以评估预测过程中的每个特征的重要性，以此量化每个特征与输出之间的全局关系。
在决策树中，特征重要性可以通过一些经典的数据相关度量来评估，例如信息增益或基尼系数。假设一个训练好的 ForSyn 有 L 层，每层包含 J 个森林，每个森林包含 T 棵树。则第 j 层森林的第 t 棵树中第 d 个特征的重要性可以使用如下公式计算。

使用如下公式可以算出特征的全局重要性，可以看作是第 d 个特征对整个模型的贡献。

与预测过程的关联

ForSyn 是一种多层深度学习方法，可以根据性能自适应地扩展。实验中训练了一个三层 ForSyn 模型，分析 ForSyn 中每层的分类结果。提取每一层错误分类的少数类样本，利用特征重要性的前 2 的特征将这些样本投影到二维空间中，得到 ForSyn 的逐层纠错能力在特征空间中可视化如下图所示。蓝点表示 ForSyn 第一层错误分类的少数类样本，红色的“+”表示在 ForSyn 的第二层和最后一层正确分类的样本，可以看出红色加号出现的次数较多，说明层的生长带来了明显的性能提升。

特征贡献度

首先分析贡献最大的特征类型，联合用药数据集特征空间由 DMF、DPP、DGE 和 CGE 四种特征类型组成。在 ForSyn 的 ETF-DR 单元中选择了 1806 维特征来完成预测任务，各特征的重要性如下图所示。图 D 中的红线表示所有特征的平均重要度，图 E 将特征分为大于和小于平均重要度的两组特征。从图可以看出有 768 个特征大于平均重要度，它们贡献占 74%，DGE 特征在预测过程中起着关键作用。虽然在 1806 个特征中有许多 DMF，但大多数 DMF 特征的贡献低于平均重要度。

关键特征的生物学分析

此处对 ForSyn 提取的关键 DGE 特征进行生物学分析，包括京都基因与基因组百科全书(KEGG)途径和基因本体生物过程(GOBP)两种基因富集分析。前 20 个富集结果如下图 F 和 G 所示，由于本人缺乏相应的生物知识，对于实验结果不进行解释，结论就是 ForSyn 得到的关键特征与生物学上的关键特征分析一致。

优点和创新点

个人认为，本文有如下一些优点和创新点可供参考学习：

针对生物信息数据集的不平衡、高维、中小规模样本的学习问题，本文使用了深度森林替代了常用的 DNN，取得了良好的效果。
对于 RF 对于不平衡数据集的欠缺，本文提出一种基于聚类的欠采样方法进行改进；对于 ET 对于高维特征空间存在的过拟合问题，本文提出了一种基于数据复杂度的贪心特征选择方法进行降维。这两种改进都是针对原始版本的缺点提出，十分自然地对模型进行了优化。
ForSyn 具有良好的可解释性，能够非常清楚、直观地输出关键特征，并与生物分析的结果一致，能有效指导生物方面的联合用药研究。
本文做了非常丰富的计算机实验和生物实验进行验证，论证的结果具有很强的说服力，并结合多种图表进行可视化，能非常直观地了解实验的情况。