《Cancers》:Development and Internal Multicenter Validation of a Deep Learning Model for Predicting Post-Hepatectomy Liver Failure in Patients with Hepatocellular Carcinoma: A Multicenter Study
Qian Chen,
Feng Xia,
Bin Guo,
Zhicheng Liu,
Xulin Liu,
Chang Shu,
Jing Yan,
Zhancheng Qiu,
Qiao Zhang and
Peng Zhu
+ 4 authors
编辑推荐:
本综述核心为一项多中心研究,其成功开发并内部验证了一种深度学习模型,旨在预测肝细胞癌(HCC)患者肝切除术后肝衰竭(PHLF)。该模型整合了术前、术中多变量,在区分度、校准度和临床效用上均显著优于传统的逻辑回归模型,展现出通过人工智能(AI)辅助进行术前风险分层、优化手术规划的潜力。
引言
肝切除术后肝衰竭是肝细胞癌患者肝切除术后一种严重且可能危及生命的并发症,显著影响患者预后,导致发病率和死亡率升高。其发生是由于剩余肝脏无法满足机体的代谢和合成需求,导致高胆红素血症、凝血功能障碍、腹水和多器官功能障碍。尽管手术技术和围手术期管理取得了进步,但准确预测PHLF仍然是一个重大的临床挑战。在术前(用于风险分层和患者选择)预测PHLF风险以及在围手术期(当术中信息可用时)更新风险的能力,对于优化手术规划和术后护理至关重要。
先前的研究已尝试使用临床评分系统、生化标志物和传统统计模型来预测PHLF。例如,终末期肝病模型评分和白蛋白-胆红素评分已广泛用于术前肝功能评估,但它们对PHLF的预测能力有限。逻辑回归模型也被用于识别PHLF的危险因素,但传统统计方法通常难以捕捉多个风险因素之间复杂的非线性相互作用,导致预测准确性欠佳。
近年来,机器学习模型,特别是深度学习,在医学应用中展现出卓越的预测性能,因为它们能够分析大型数据集并揭示临床变量中的隐藏模式。研究表明,深度学习模型在预测术后并发症方面可以超越传统的基于回归的方法。然而,深度学习在预测PHLF方面的应用尚未得到广泛探索。
本研究旨在通过开发和验证一个深度学习模型来填补这一空白,以预测接受肝切除术的HCC患者的PHLF。为评估模型的预测性能,我们将其与作为基线的逻辑回归模型进行比较。通过利用包含498名患者的多中心数据集,本研究旨在建立一个强大且临床适用的预测工具,以支持术前决策、加强患者选择,并最终改善肝脏手术的术后结局。
材料与方法
研究设计与数据收集
一项回顾性多中心研究纳入了2018年1月至2020年12月期间在六个医疗中心接受肝切除术的498名HCC患者。本研究旨在开发和验证一个用于预测PHLF的深度学习模型,并将其性能与逻辑回归模型进行比较。从电子病历中收集了全面的临床数据,包括人口统计学特征、术前肝功能标志物、肿瘤特征和术中变量。数据集经过去标识化处理以确保患者机密性。纳入标准包括病理学证实的HCC、以治愈为目的的肝切除术,以及可获得术前血清学和术后肝功能数据。排除标准包括患有预先存在的慢性肝衰竭或失代偿性肝硬化的患者、接受肝移植而非部分肝切除术的患者,以及缺少关键临床或随访数据的患者。本研究获得了所有参与机构的机构审查委员会的批准,并根据《赫尔辛基宣言》进行。大范围肝切除术定义为切除三个或更多Couinaud肝段。由于所有参与中心的患者被汇集并按患者级别进行分割,因此模型评估代表内部多中心验证。
结局定义与PHLF监测
根据国际肝脏外科研究组的定义,其特点为术后第五天或之后出现延长的凝血功能障碍和高胆红素血症,且无其他可识别的原因(如胆漏或败血症)。PHLF严重程度分级如下:A级:不需要特定的临床管理,肝功能不全无需干预即可恢复;B级:患者需要医疗干预,但不需要侵入性支持;C级:患者需要重症监护支持。在本研究中,被分类为B级或C级PHLF的患者被视为模型训练的阳性病例。
术后肝功能通过住院期间的每日血液检查和随后长达三个月的每周门诊随访进行评估。监测的参数包括总胆红素、凝血酶原时间、白蛋白、血氨水平以及肝代偿失调的临床体征,如腹水和肝性脑病。
数据预处理
为确保最佳模型性能并减少偏倚,我们应用了分割优先的预处理工作流程以防止信息泄露。在分层分割后,插补和缩放参数仅在训练队列上拟合,然后应用于验证和测试队列。连续变量基于训练集统计数据标准化为z分数。缺失值较少,使用训练集均值对连续变量进行插补,使用训练集众数对分类变量进行插补。特征选择仅在训练队列中进行。使用分层随机抽样将汇集的数据集划分为训练集、验证集和测试集,保持各分割中PHLF的发生率。训练集用于模型开发,验证集用于超参数调整和阈值选择,测试集保留用于对未见数据的最终评估。由于分割是在患者级别进行的,该评估构成了内部多中心验证。
模型开发
构建了两个模型来评估PHLF预测的准确性。为公平比较,逻辑回归和深度学习模型使用相同的最终特征集进行训练。逻辑回归模型作为基线比较器,并使用临床相关预测因子构建。
深度学习模型使用全连接深度神经网络架构开发。输入层包含预处理后的全套临床变量。最终网络包括三个隐藏层,使用ReLU激活和Dropout正则化。输出层使用Sigmoid激活函数来预测PHLF的概率。使用Adam优化器进行优化,使用二元交叉熵损失,并应用早停法以减少过拟合。通过网格搜索在训练/验证队列上进行超参数调优。为处理类别不平衡,在训练期间应用了与类别频率成反比的类别权重,并在验证队列上选择分类阈值。
模型评估
为评估模型性能,我们评估了区分度、校准度和临床效用。区分度通过接受者操作特征曲线下面积、准确度、灵敏度、特异性、精确率和F1分数进行评估。校准度通过校准图和Brier分数进行评估。临床有用性通过决策曲线分析进行评估,以量化在一系列阈值概率下的净收益。
为增强可解释性,使用SHapley Additive exPlanations值进行特征重要性分析,以识别深度学习模型中的关键预测因素。
数据分析
连续变量以中位数或均值表示,分类变量以频率和百分比表示。使用卡方检验或Fisher精确检验比较三个队列的分类变量。使用Shapiro-Wilk检验评估正态性。正态分布变量使用单因素方差分析进行比较,非正态分布变量使用Kruskal-Wallis检验进行比较。
为识别PHLF的危险因素,在训练队列中进行单变量逻辑回归分析。对具有单变量显著性的变量进一步进行多变量逻辑回归分析。最终预测因子通过向后逐步法选择。计算方差膨胀因子以检测多重共线性。
为比较逻辑回归和深度学习模型的性能,生成了ROC曲线,并将AUC用作主要性能指标。分析两个模型的特征重要性。在逻辑回归模型中,重要性通过比值比及其95%置信区间确定。
为评估术前适用性,我们通过排除术中变量,同时保留所有其余预测因子,重新构建模型进行了敏感性分析。使用与主要围手术期模型相同的建模框架和验证策略来训练和评估模型。
结果
训练、验证和测试队列的基线特征
共纳入498名接受肝切除术的HCC患者。他们被随机分配到训练队列、验证队列和测试队列。关键临床特征在各队列间平衡,年龄、性别、肿瘤特征或肝功能标志物无显著差异,证实了随机化的适当性。
训练队列中HCC患者发生PHLF的单变量和多变量逻辑回归分析
在训练队列中进行单变量逻辑回归分析以评估PHLF的潜在危险因素。将单变量分析中p < 0.05的变量纳入多变量逻辑回归模型。多变量逻辑回归确定ALBI评分、MELD评分、凝血酶原时间、术中失血量和切除范围为PHLF的显著独立预测因子。
PHLF组与非PHLF组的生存分析比较
Kaplan-Meier分析显示,发生PHLF的患者的总生存期显著差于未发生PHLF的患者。此分析并非旨在评估模型性能,而是为了说明PHLF作为术后并发症的临床意义。PHLF患者观察到的显著更差的生存率突显了在术前或术中识别高危患者的重要性。
逻辑回归和深度学习模型的比较
逻辑回归模型使用多变量分析中确定的显著预测因子构建。该模型在训练、验证和测试队列中的AUC分别为0.782、0.757和0.773。
深度学习模型采用全连接神经网络架构开发,旨在捕捉数据集中复杂的非线性关系。其特点是具有用于术前和术中数据的输入层,随后是三个具有ReLU激活和Dropout正则化的隐藏层。经过Sigmoid激活的输出层生成PHLF概率分数。经过超参数调优后,深度学习模型在训练、验证和测试队列中的AUC分别达到0.914、0.892和0.906。使用SHapley Additive exPlanations增强了模型的可解释性。SHAP汇总图突出显示,ALBI评分、MELD评分和术中失血量对PHLF预测的贡献最高。
多个模型的性能
模型之间的性能比较显示,深度学习模型在所有数据集中始终优于逻辑回归,显示出更高的灵敏度、特异性和F1分数。在训练、验证和测试队列中,其AUC分别为0.914、0.892和0.906,相应的F1分数分别为0.836、0.814和0.825。逻辑回归的AUC和F1分数较低。这些结果凸显了深度学习的卓越预测能力,支持其作为更有效的PHLF风险评估工具的潜力。
校准与临床效用
深度学习模型和逻辑回归模型的校准曲线和Brier分数显示模型校准良好。决策曲线分析表明,在一系列临床相关阈值概率下,深度学习模型比逻辑回归模型提供了更高的净收益,表明其潜在的临床实用性。
敏感性分析:仅术前模型
为评估术前适用性,我们开发了一个排除术中变量的仅术前模型。该仅术前模型在测试队列中实现了0.821的AUC,而围手术期深度学习模型的AUC为0.906。生成精确率-召回率曲线以评估类别不平衡下的模型性能。深度学习模型实现了比逻辑回归更高的平均精确率,并在大多数召回率范围内保持了更高的精确率,表明其识别有PHLF风险患者的能力得到改善。
讨论
在这项多中心研究中,我们证明了深度学习模型在预测肝细胞癌患者肝切除术后肝衰竭方面优于传统的逻辑回归。深度学习模型的卓越性能可能归因于其捕捉临床变量之间复杂非线性相互作用的能力,而这通常被传统统计方法所忽视。逻辑回归虽然在理解个体危险因素方面有用,但在建模高维数据以及术前肝功能、术中参数和术后结局之间的复杂关系方面存在固有局限性。我们的发现为支持人工智能在实时手术风险评估中的潜在应用增加了证据。在我们的研究中,逻辑回归模型显示出中等的区分度,而深度学习模型实现了更高的区分度。
先前关于PHLF预测的研究主要依赖于临床评分系统或统计模型,结果不一。终末期肝病模型评分和白蛋白-胆红素评分已广泛用于术前肝功能评估,但它们对PHLF的预测准确性仍然欠佳。目前,尚未开发出专门用于PHLF预测的深度学习模型。然而,近年来,深度学习在术后风险预测中的应用受到越来越多的关注。与逻辑回归不同,深度神经网络可以利用患者数据中的隐藏模式,实现更精确的风险分层。几项研究已经证明了机器学习在预测术后并发症方面的优势。
在本研究中,我们应用了一个深度学习框架进行PHLF预测,并使用多中心数据集评估了其性能。该模型整合了多个临床和手术变量,能够捕捉数据中复杂的非线性关系。由此产生的AUC值在训练、验证和测试队列中分别为0.914、0.892和0.906。值得注意的是,测试队列的性能与先前机器学习研究报告的相当或更高。这些发现进一步支持了基于深度学习的方法在改善PHLF风险预测方面的潜在价值。
有几个因素可以解释这些差异。首先,我们的研究使用了预定义的训练-验证-测试框架,允许在未见数据上独立评估模型性能。其次,深度神经网络架构使模型能够捕捉围手术期变量之间复杂的非线性相互作用,这可能无法被传统统计模型或基于树的算法完全捕捉。最后,我们的研究使用相同的临床变量直接比较了深度学习与常规逻辑回归,凸显了深度学习在围手术期风险预测方面的潜在增量价值。
特征重要性分析进一步揭示了PHLF的关键预测因子。SHAP值确定总胆红素、白蛋白、凝血酶原时间、术中失血量和切除范围是对模型预测贡献最大的变量。这些发现与先前的研究一致,并进一步支持了这些因素的临床相关性。总之,这些结果表明,结合术前肝功能指标和术中因素可能提供对PHLF风险更全面的评估。
准确预测PHLF具有重要的临床意义。被识别为高风险的患者可能会受益于有针对性的术前干预,例如营养优化、门静脉栓塞以促进未来肝脏残骸的肥大,或调整手术策略以减少术中失血。此外,更密切的术后监测和早期支持性管理可能有助于降低严重肝功能衰竭的可能性。因此,将基于人工智能的预测工具整合到临床实践中可以支持外科医生进行患者选择和围手术期决策。
为了进一步探索术前潜在的临床适用性,我们还使用术前可用的变量构建了一个仅术前模型。正如预期,预测性能低于围手术期模型,表明术中信息提供了额外的预后价值。尽管如此,仅术前模型仍然显示出可接受的区分度,这表明在术前进行初步风险分层可能已经可行。
尽管结果令人鼓舞,但我们的研究存在一些局限性。首先,回顾性设计可能引入选择偏倚和未测量的混杂因素。其次,尽管数据来自多个中心,但评估基于汇集队列的患者级别分割,因此构成内部多中心验证而非完全独立的外部验证。第三,所有参与中心都位于中国,这可能限制了对其他人群和医疗保健系统的普遍适用性。第四,术中变量的纳入支持了围手术期风险更新,但可能限制纯粹的术前使用;因此我们增加了仅术前敏感性分析。最后,在常规部署之前,需要进行前瞻性验证和工作流程集成实施研究。未来的研究可能进一步评估深度学习与其他机器学习算法在更大规模多中心数据集中的比较性能。
结论
这项多中心研究表明,在内部验证的多中心队列中,与逻辑回归相比,深度学习提高了对肝切除术后肝衰竭的预测性能。通过整合术前变量以及可用的术中参数,该模型可以支持围手术期风险分层和手术规划。未来的研究应优先考虑前瞻性外部验证和现实世界的实施。