一种用于预测胰腺癌患者的淋巴结比率和存活率的交互式Bayes模型

发布时间 2023-08-27 09:48:19作者: sqchi1991

回复我们公众号“1号程序员”的“E006”可以获取原文下载地址。[关注并回复:【E006】] 

摘要

背景 局部淋巴结状态早已被用于癌症患者临床结果的二分预测。而最近以来,人们对淋巴结比率(LNR)的预后作用,即对量化的检测到的阳性淋巴结比率越来越感兴趣。然而对于淋巴结比率和其对癌症存活率影响的联合模型的统计工具的研究依然不足。

方法 数据来自2004~2010年NCI SEER癌症登记处的6400名确诊为胰管腺癌并经受过肿瘤切除术治疗的患者。一种新型的Bayes方法建立并用来实时模拟患者真实但不能检测的淋巴结比率情况及存活率。新的网络开发工具用来为每个患者的预测创建交互式网络应用。

结果 组织学分级和T、M期是LNR状态重要的预测因子。存活率的重要预测因子包括年龄,性别,婚姻状态,癌症分期,组织学分级,T、M分期,肿瘤大小以及放射性治疗情况。LNR被发现对存活率有极重要的非线性影响。此外,生存模型的预测性能也比具有更多同类患者和个体预测的研究效果要好。

结论 我们提出了一种新的方法和工具集用来预测淋巴结比率和存活率,且一般可应用于很多类型的癌症,包括乳腺癌,结肠癌,黑色素瘤,胃癌等。我们的方法是通过对大量胰管腺癌患者存活率的预测的有效模型和网络应用来展示的。

引言

癌症是一大类的复杂疾病,很多因素会影响它的生存结果。而存活率的差异则通过患者的人口统计和遗传特征,病种(肿瘤位置,大小,组织学分级和肿瘤分期)以及治疗过程来进行观测。统计学方法已经被广泛地应用于癌症研究来识别存活率的重要预测因子并建立预后模型。需要建立模型来描述患者的生存经历,从而对比治疗效果,并区分治疗效果存在差异的不同的亚群体。

大量的研究案例都只关注于癌症转移的局部淋巴结,并把它作为临床结果的预测因子。作为二分变量,淋巴结状态很久就被用来分析,且不断地被发现与存活率紧密相连[1]。最近以来,人们的兴趣转向了对淋巴结状态,即数值量化的阳性淋巴结(PN)数目或淋巴结比率 (LNR, 定义为阳性淋巴结数目除以检测到的总淋巴结数目)的应用 [2-5]。对这些方法的兴趣已经延伸到了许多不同的癌症,包括胰腺癌,食道癌,胃癌,结肠癌,乳腺癌和黑色素瘤。分析PN和LNR的一个复杂因素是不同个体收集的淋巴结数目是高度变化的。一些研究应用统计方法来确定能够保证精确预测所需的淋巴结数目[4]。但是,在大部分发表的存活率分析中,检测的淋巴结数目之间的差异往往被忽略或被处理为限定仅对数目相同的患者进行分析。这种方法由于潜在的偏见,下降的功能和增多的预测误差而显不足。

我们目前的研究是出于对LNR的推理及其对存活率影响的兴趣。尽管我们的方法与一些肿瘤部位相关,但我们选择开发并应用其到胰腺癌的研究上,因为我们对该疾病的经验,该疾病作为第四癌症杀手的公众健康重要性[6]以及其他将LNR用来对胰腺癌存活率进行预测等方面的兴趣。我们工作的一个重要目标就是为胰腺癌社区提供一种改进的分析方法和预后预测模型。

预测模型由于其能够对患者结果进行预测而在临床实践中受到广泛关注。拟合模型的结果可以以不同的形式呈现。图表总结常可见出版刊物。由于出版的局限性,这些往往被限制在具有小数目和综合因素的方面发表。列线图在预测模型中常被用作图形计算器[7]。他们在预测方面优于大量包括变量在内的预测器,对基础模型不需要数学知识,且占用较小的物理空间。然而,列线图只能提供点估计,不能提供预测误差,甚至对于复杂模型根本不存在。由于模型复杂性的增加和软件工具的可用性,针对存活率预测的交互式图形用户界面越来越受到青睐。

本文中,我们建立了一种LNR及其对癌症存活率影响的预测模型。我们的工作呈现了一种对LNR分析的新方法。与其他工作的区别在于:(1)在分析过程中,包括所有患者在内,对检测到的淋巴结数目的差异直接进行调整;(2)对LNR及存活率可同时推断。我们的方法如下展示。首先,建立一个完整的Bayes统计模型框架。然后,基于网络交互式界面实现实时预测。最后,对于在监测,流行病学及最终结果数据库(SEER)的胰腺癌患者的一个大型的、以人群为基础的样本分析中完成模型的建立,验证和推理。

方法

数据

诊断为胰腺癌患者的数据来自美国国家癌症研究所(NCI)SEER 数据库2013年四月的最近更新[8]。 SEER数据库包括18个基于人群的登记处,覆盖了将近28%的美国人口。有关癌症诊断,患者人口统计及存活率的患者层面的信息来自SEER登记处定期收集并作为公开的匿名化的记录。

我们将分析限制在SEER数据的一个子集。具体的,仅对把胰管腺癌组织病理诊断(SEER原发部位记录C250-3或C257-9,以及 ICD-O-3组织学代码8140,8480,8481,8490或8500)作为唯一的恶性肿瘤,并经历过根治性肿瘤切除术(包括胰十二指肠切除术,胰体尾切除术,或全胰切除术)的患者进行分析。2004年,SEER 实施了协同阶段编码系统[9]来确保癌症分期报告的标准化。鉴于在癌症存活率的预测方面准确分期的重要性,患者仅来自最新报告期(2004-2010)。此外,如果患者的癌症报告来源是护理中心或者疗养院,收容所,尸体解剖或者死亡证明书,则排除其外。对于随访少于一个月且关键预测变量的值不确定的患者也要排除其外,其中包括未知种族的(N=20),原发肿瘤不确定的(N=131),未知肿瘤大小(N=313),未知局部淋巴结数目(N=137)以及未知放射性治疗情况(N=9)的。结果分析子集包括6400名患者,在表1和表2中进行了总结。同样的,图1总结了检测到的淋巴结的数目与观察的LNRs之间的关系,并说明了在检测到的淋巴结的对象与对象的变化率以及在范围上下两端LNRs所基于的较小淋巴结数目。

表1 SEER胰腺癌患者的随访,人口统计以及治疗变量的描述性总结

表2 SEER胰腺癌患者癌症诊断的描述性总结

 

图1 观测的LNR

图1显示了检测到的所有淋巴结数目(TLN)与观测的淋巴结比率(LNR)对比的散点图。颜色及图例代表了每个点的对象数目,实线(平滑样条)拟合了TLN和LNR数据点。分析数据集中的6174个SEER对象至少有一个检测到的淋巴结,并在图中显示。

Bayes模型方法

一种Bayes模型框架建立并用来对LNR及其存活率进行预测。Bayes模型的特点在于其可以利用先验信息,给定先验概率分布,与新的数据相合并,通过他们的抽样分布,得到后验分布概率,其概率报表可得到所有的模型参数。该研究中尤其感兴趣的参数是真实但无法观测的LNRs。在Bayes方法中,这些都被同时进行logistic回归拟合并用来对所有的存活率进行Cox回归拟合来进行预测。建模细节在下一节指出。先验信息的使用是该方法的一个优势,能够适应复杂的层次模型并提供现实的预测误差。反过来,模型的复杂性需要对后验分布进行计算密集的仿真估计。

淋巴结比率模型

在癌症诊断时,患者淋巴结常被活检来作为癌症转移的证据。先前的研究观察了PN百分比(LNR)与临床结果的关系,且将LNR作为预测指标受到越来越多的关注。然而,活检的淋巴结数目相当少且对不同的患者差异很大。因此,在所有的淋巴结中,观测的LNR仅仅提供真实比例的阳性淋巴结的估计值。这种估值在具有活检淋巴结(总淋巴结,TLN)数目较多的患者中更精确。因此,LNR的统计分析应该考虑到TLN的差异。此外,还可能有其他与LNR相关的临床病理因素被用来提高估计的准确性。本小节给出了统计模型来说明TLN,同时包含了在估计LNR时的其他因素。

存活率模型

不同于其他研究中检测临床结果中观测到的LNR的影响,我们直接研究真实LNR的影响。特别是,一个统一模型被用来同时估计真实LNR及其对总存活率的影响。这种方法的优势包括具有更精确的预测误差,利用所有来源(活检,预测因子以及存活率)的数据进行LNR估计,对患者无需活检淋巴结的便利。利用LNR进行治疗的一个附加优势是我们将其对存活率的影响拟合为连续函数形式。