编辑推荐:
这篇综述系统回顾了用于预测乳腺癌手术和放疗后不良结局的模型,涵盖短期(如手术部位感染、放射性皮肤毒性)和长期(如乳房外观、生存质量)结局。分析发现,尽管存在美国外科医师学会国家手术质量改进计划手术风险计算器、乳房重建风险评估评分和乳腺癌手术风险计算器等模型,但多数缺乏外部验证,限制了其临床应用。机器学习模型在预测复杂终点方面展现出潜力,而多尺度有限元模型为长期美学结局预测提供了新方向。未来研究需优先在多样化人群中进行外部验证,并开发针对长期副作用和更复杂结局的模型。
在乳腺癌治疗领域,手术和放疗是两种最常用的局部治疗方式,但它们都可能带来影响患者生存质量(QoL)的副作用。为了优化个体化治疗计划,改善幸存者体验,能够识别有不良结局风险的患者至关重要。近期一篇系统评价聚焦于此,对相关预测模型进行了全面梳理。
引言
乳腺癌是全球女性中最常见的癌症类型,但由于筛查、早期检测和治疗的进步,患者预后在过去四十年已显著改善,约90%的患者生存期超过5年。手术(包括保乳手术和乳房切除术后重建)和放疗是主要治疗手段,但两者均可能引起副作用。预测模型,包括基于机器学习(ML)技术的模型,已成为医疗保健中有价值的工具,能够帮助识别不良效应或不良美学结局风险增加的个体或患者队列。通过利用个体患者和治疗相关数据,这些模型可以增强知情决策,从而优化治疗结果并改善患者QoL。
然而,可靠临床预测模型的开发和验证面临诸多挑战,例如患者群体的异质性、治疗方法和方案的差异,以及不良结局衡量或分类的不同。因此,整合多样化数据集并应用适当的方法学对于捕捉各种预测变量之间复杂的相互作用至关重要。
方法论
本综述遵循系统评价和荟萃分析优先报告项目(PRISMA)2020指南,旨在系统回顾关于乳腺癌手术和放疗后所有不良结局预测模型的文献,综合现有证据并评估现有模型在整个局部治疗相关副作用范围内的性能,以期为临床实践和未来研究方向提供信息。
研究纳入标准包括:报告18岁及以上女性手术后或放疗后乳房外观、结局、并发症或毒性的预测模型,并评估模型性能(包括准确性、校准和临床实用性)。任何研究设计(包括观察性研究或使用临床试验数据的研究)均被纳入。不涉及预测的研究以及仅报告乳房评估方法或量表的研究被排除,会议摘要、综述、信函或评论也被排除。
文献检索在PubMed、Medline (Ovid)、Scopus、Web of Science和CINAHL五个电子数据库中进行,检索截止至2024年6月15日。数据提取和质量评估依据个体预后或诊断多变量预测模型透明报告+人工智能声明清单(TRIPOD+AI)进行。由于研究间存在异质性,数据综合主要是定性的,未进行荟萃分析。
结果
研究筛选
数据库和手动检索共识别出13,307条记录。去除重复后,5376条记录进入摘要筛选阶段。筛选前排除了294篇会议摘要、综述或评论,标题和摘要筛选后排除了4682项研究,剩下386项研究进行全文资格评估。在排除了118项描述乳房评估模型或量表而非预测模型的研究、233项描述风险因素和结局但未开发任何模型的研究,以及2项涉及非人类受试者的研究后,最终有33项研究被纳入数据综合。
研究特征与结果
符合纳入条件的单项研究主要分为两大类:预测(i)早期和(ii)长期不良结局的模型。
早期不良结局的预测模型
放疗诱导的早期皮肤毒性
多项研究描述了放疗后乳房皮肤毒性的预测模型。Rattay等人(2020年)成功开发了皮肤红斑的预测模型,并使用多中心REQUITE队列研究数据进行了外部验证,证明其模型可以预测此类急性皮肤辐射毒性,曲线下面积(AUC)为0.65,但校准度中等。然而,他们在尝试验证针对脱屑终点的预测模型时遇到了挑战。Aldraimli等人(2022年)利用相同的REQUITE队列,专注于开发新的ML模型来预测急性脱屑,其中成本敏感随机森林(RF)模型最为有效,AUC达到0.77。该模型经过了内部验证,但仍需外部验证。Feng等人(2022年)开发了基于放射组学的ML模型,用于预测乳腺癌患者的放疗诱导急性皮肤毒性,其梯度提升决策树算法模型在训练集中AUC达到0.998,验证集中为0.911。Cilla等人(2023年)开发了另一个预测模型,将定量分光光度测定标记物与临床变量结合,其支持向量机(SVM)模型表现出最佳性能。需要注意的是,除Rattay等人(2020年)的模型外,这些模型均未在时间或空间上独立的数据集中进行外部验证,且目前尚无纳入种系基因组数据的早期放疗皮肤毒性模型。
乳房重建并发症
Kim等人(2014年, 2015年)和Khavanin等人(2017年)描述并验证了乳房重建风险评估(BRA)评分的开发和验证,该模型旨在预测自体组织和植入物即刻乳房重建(IBR)后发生手术部位感染(SSI)、血清肿、皮瓣衰竭或植入物取出等并发症的可能性。Blough等人(2018年)和Hansen等人(2018年)将BRA评分修改为预测植入物乳房重建后1年并发症的BRA评分XL。O'Neill等人(2019年)测试了BRA评分预测微血管乳房重建(特别是腹壁下动脉穿支皮瓣手术)并发症的能力,发现其预测效果不佳,这促使他们开发了基于集成ML决策树的新模型。Roy等人(2019年)在同一手术背景下开发并验证了分类预测模型。Martin等人(2020年)尝试将30天BRA评分用于前胸肌植入物重建的验证,发现其预测能力较差。
美国外科医师学会国家手术质量改进计划手术风险计算器
多项出版物描述了基于ACS NSQIP数据集的手术风险计算器(SRC)(一种逻辑回归模型)的开发和验证。Fischer等人(2013年)开发并内部验证了分类预测模型。Gonzalez-Woge等人(2021年)和Dube等人(2022年)尝试在未加选择的墨西哥和英国乳腺癌手术患者队列中对ACS NSQIP SRC进行外部验证,发现其预测效果中等。O'Neill等人(2016年)专注于验证该工具用于微血管重建,效果相对较差。Jonczyk等人(2021年, 2023年)使用更大的NSQIP数据集对SRC进行了重新训练和重新校准,用于预测接受保乳手术或乳房切除术患者的四种复合结局,并在更新的数据集中进行了验证,总体平均AUC为0.70。验证和更新后的模型可在乳腺癌手术风险计算器(BCSRC)平台上获取。
其他模型
Nelson等人(2015年)、Park等人(2020年)和Frey等人(2020年)分别开发了针对特定重建手术并发症的预测模型,这些模型均包含吸烟和身体质量指数(BMI)等预测因素。
长期不良结局的预测模型
放疗诱导的晚期毒性
Mbah等人(2018年)开发了预测乳腺癌患者放疗后长期辐射毒性终点(水肿、纤维化、挛缩和色素沉着)的预测模型。Hammer等人(2017年)开发了针对三维适形放疗同步推量技术早期乳腺癌患者发生≥2级放疗诱导皮下纤维化的剂量学预测模型,AUC为0.66。这些模型均尚未进行外部验证。
不良乳房美观度
多项预测模型针对保乳手术和放疗后的不良乳房美观度而开发。Vos等人(2015年)研究了肿瘤体积与乳房体积比、肿瘤位置和标本重量对美观度的影响。Kindts等人(2019年)开发并尝试验证了针对不良美观度的模型,并在同一中心后续队列中进行了验证和重新校准。Meshulam-Derazon等人(2024年)开发了针对不良美观度和不良乳房形状的模型。对于乳房切除术后重建的不良美观度,Manie等人(2018年)为接受扩大背阔肌即刻重建的患者开发了模型。Naoum等人(2022年)和Bavaro等人(2023年)开发了针对植入物乳房重建和放疗后包膜挛缩的预测模型。这些模型均未进行外部验证。
乳房外观的多尺度预测模型
三篇出版物描述了用于预测保乳手术后乳房外观的多尺度有限元模型(FEM)的开发。Garbey等人(2013年)引入了集成机械组织变形和生物愈合模型的二维模拟框架。Vavourakis等人(2016年)将建模框架扩展到三维模拟。Zolfagharnasab等人(2018年)通过引入机器学习技术,专注于克服生物力学建模(FEM)的时间和资源需求。这些新兴模型展示了预测术后外观的潜力,但同样需要外部验证。
讨论
本系统评价旨在综述关于乳腺癌手术和放疗后不良结局预测模型的文献。它定性综合了33项研究,这些研究建模了一系列早期和长期不良事件。迄今为止最常报告的模型是ACS NSQIP和乳腺癌手术风险计算器以及BRA评分,它们都预测乳腺手术后早期并发症的风险。尽管在开发这些预测模型时使用了相对较大的训练数据集,但它们普遍缺乏外部验证,从而限制了其在不同临床环境和国家间的普适性。
目前,尚无可外部验证的用于预测乳腺手术后或放疗后长期不良结局的模型。机器学习模型在预测早期放射性皮肤毒性以及长期包膜挛缩和乳房外观方面已经出现,与传统的统计方法相比,具有改进的预测性能。它们还有潜力纳入更广泛范围和数量的患者变量,例如影像学数据和基因组标记物,并可能应用于更复杂的终点。已发表的基于机器学习的模型也被证明通过结合先进的数据采样技术,其性能优于传统统计模型。
本系统评价的结果与既往文献一致,都指出了在乳腺癌治疗中需要稳健的预测模型来预测不良结局并优化患者护理。虽然在开发这些模型方面已取得重大进展,但缺乏外部验证仍然是临床实施的一个挑战。外部验证对于模型在不同人群和环境中使用是必要的,但在本评价纳入的大多数研究中明显缺失。包含外部验证的研究(例如评估ACS NSQIP SRC和BRA评分的研究)表明,许多模型需要针对特定的手术技术(如显微外科或前胸肌乳房重建)进行重新校准。样本量≥100(理想情况≥200)是进行外部验证的关键要求。值得注意的是,虽然它们经常报告使用拆分训练-测试数据集进行内部验证,但本评价中包含的所有基于机器学习的研究均未将验证扩展到外部队列,这可能是由于缺乏可用的多维数据集。
对于涉及乳房外观的更复杂终点,多尺度有限元模型可以考虑机械应力、重力和生物愈合过程之间的相互作用。然而,这些模型计算密集,但与用于从模型中提取关键特征的机器学习结合使用时,它们在预测术后外观以用于临床方面显示出潜力。当然,这些新兴模型将需要外部验证。
研究局限性
尽管本系统评价有几个优点,例如同时纳入了参数统计模型和机器学习模型,涵盖了乳腺手术和放疗后的所有不良结局范围,但也存在一些局限性。检索过程可能遗漏了相关研究,因为本系统评价仅限于已发表的数据。通过彻底筛选300多篇全文记录以确保仅纳入准确的预测模型,这一局限性得以减轻。缺乏外部验证的模型占主导地位,这限制了它们在临床实践中的效用。没有外部验证,模型在不同患者群体和临床环境中的性能仍然不确定。此外,纳入研究之间患者群体、治疗方式和结局测量的异质性给偏倚风险评估和定量证据综合带来了挑战。许多已发表的模型是在相对较小的患者队列中开发的,这可能限制其普适性和可靠性。最后,大多数已发表的模型侧重于短期结局,而针对长期结局(如晚期辐射毒性和乳房外观)的模型较少。
结论
本系统评价表明,大多数用于预测乳腺癌手术和放疗后不良结局的模型尚未准备好广泛临床应用,原因在于缺乏验证且技术发展不成熟。同时,它也突显出针对长期副作用和更复杂结局(如乳房美观度和生存质量)的预测模型相对缺乏,这为未来研究指明了方向。