食管癌患者的新辅助化疗和放疗后发生肺炎的预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Radiotherapy and Oncology》：Prediction of pneumonia following neoadjuvant chemoradiotherapy in patients with oesophageal cancer

【字体：大中小】 时间：2026年05月04日 来源：Radiotherapy and Oncology 5.3

编辑推荐：

　　M.L. Frederiks | M. Berbéeb | E. Schuit | H.W.M. van Laarhoven | P.S.N. van Rossum | Z. van Kesteren | M.I. van Berge Henegouwen | G.J. Meijer | S. Mook | J.P. Ruurda | J.J. Nuyttens | B. Mostert | H. Rütten | B. Klarenbeek | M.D. Den Hartogh | M. Sosef | R. Canters | R.H.A. Verhoeven | B. van Etten | J.A. Langendijk | C.T. Muijsa
格罗宁根大学医学中心放射肿瘤科，荷兰格罗宁根

**摘要**
**背景与目的**
肺炎是食管癌新辅助化疗放疗（nCRT）和食管切除术后常见的严重并发症，会对治疗结果产生负面影响。我们的目标是开发一个模型，以准确预测这一风险。

**材料与方法**
这项多中心回顾性研究包括了2015至2021年间接受nCRT±食管切除术（CROSS方案）治疗的食管癌患者（肿瘤分期cT1-4N0-3M0）。终点定义为nCRT后六个月内出现≥2级的肺炎（CTCAE v5.0）。为处理数据的高维度问题，采用了主成分分析（PCA）将肺部和心脏的剂量-体积分布（DVH）模式简化为易于解读的剂量模式。随后建立了一个逻辑回归模型，并通过内部-外部交叉验证对其区分能力、校准性能以及中心间的异质性进行了评估。

**结果**
最终模型共纳入了来自五个中心的1,459名患者，其中314名（22%）患者发生了肺炎。该模型考虑了患者原有的肺部疾病、糖尿病、是否接受食管切除术以及三个基于PCA的剂量指标（总体心/肺剂量、心肺剂量比以及低剂量区域）。模型表现出较低的异质性（所有指标的I2=0%）、良好的区分能力（合并AUC为0.68；95%置信区间0.63–0.72）以及出色的校准性能（斜率为0.91；95%置信区间0.56–1.26；大样本校准误差为0.02；95%置信区间?0.14–0.18）。

**结论**
我们开发并验证了一个适用于食管癌患者肺炎预测的通用NTCP模型。该多中心模型具有较好的校准性能和中心间的一致性，为个性化治疗提供了有力工具，有助于优化放疗计划和选择合适的治疗技术。

**引言**
新辅助化疗放疗（nCRT）后进行食管切除术是可切除的局部晚期食管癌（EC）的标准化治疗策略，与单独手术相比能提高总体生存率[1]。然而，这种多模式治疗方法伴随显著的治疗相关毒性，其中肺炎是最常见的并发症[2]。肺炎可能导致住院时间延长，并可能危及患者生存[3]–[6]。值得注意的是，nCRT中的放疗部分是肺炎发生的主要因素，而在新辅助化疗后肺炎的发生率似乎较低[7]。肺部并发症的发生率与风险器官（OARs）接受的放疗剂量密切相关，尤其是肺部和心脏[8]–[10]。因此，在保持靶区覆盖的同时，限制这些器官的剂量至关重要。但目前尚无关于“最佳”放疗方案的共识，导致临床实践存在很大差异[11]。

正常组织并发症概率（NTCP）模型根据对OARs的计划剂量来估计临床相关终点的风险，这些模型可指导为患者选择最合适的治疗方案或放疗技术[12]。由于质子的物理特性，质子治疗（PRT）能更好地保护OARs，从而可能降低肺部并发症的风险[13]–[14]。但由于质子治疗的可用性有限且成本较高[15]，荷兰目前仍采用NTCP模型来识别最有可能从PRT中受益的患者[16]。

**通用性**
这些NTCP模型的准确性依赖于其通用性。现有的肺部并发症NTCP模型[17]存在局限性，因为它们仅基于两个机构的数据开发，且仅关注接受nCRT后进行手术的患者，从而排除了未接受手术的患者。因此，本研究的目的是利用大型多机构队列数据，开发并验证一个用于预测接受nCRT治疗的食管癌患者肺炎的可推广NTCP模型。

**方法**
本研究遵循TRIPOD-Cluster指南（多变量预测模型透明报告）[18]进行报告。整个研究项目获得了格罗宁根大学医学中心伦理委员会的批准（项目编号11446），并在ClinicalTrials.gov上注册（clinicaltrials.gov: NCT06366828）。

**数据来源**
数据来自荷兰癌症登记册（NCR）、当地机构的放疗数据、标准随访（SFP）前瞻性数据登记册以及荷兰上消化道癌症审计（DUCA）。纳入标准为：1）根据CROSS方案接受nCRT（剂量36–41.4 Gy）±食管切除术的患者；2）在研究开始前已同意数据使用或在此期间去世且未反对数据使用的患者。排除标准包括：1）既往接受过胸部放疗；2）组织学类型非腺癌或鳞状细胞癌；3）在CROSS治疗期间接受过靶向治疗。符合条件的患者信息通过结合患者ID、出生日期和切除日期生成的假名在各个数据登记册之间进行整合。

**治疗**
nCRT方案包括23次分次放疗，每次31.4 Gy，同时每周给予卡铂和紫杉醇治疗，这符合当时荷兰的标准护理流程[19]。放疗采用光子治疗（PhRT）、三维适形放疗（3DCRT）、调强放疗（IMRT）或质子治疗（PRT）。自2020年起开始使用PRT，患者选择依据特定模型进行，详细信息见补充材料A2。食管切除术可通过胸腔或经食管途径进行，可采用开放式手术、混合微创手术或完全微创手术，吻合位置主要在颈部或胸腔内。

**终点与预测因子**
主要终点是肺炎，根据CTCAE v5.0定义为≥2级的肺炎，时间节点为nCRT完成后的六个月内。肺炎数据由NCR的数据管理人员回顾性收集，或从SFP前瞻性数据登记册中提取。由于缺乏区分肺炎潜在原因的可靠方法[21]，所有肺炎病例均被记录在案，不论其病因。

**预测因子**
预测因子包括患者因素（年龄、性别、心脏/肺部疾病和糖尿病共病、WHO体能状态、心脏大小、肺大小、BMI以及肿瘤组织类型）、治疗因素（是否接受食管切除术）以及肺部和心脏的剂量-体积分布（DVH）数据。如果患者在接受nCRT后六个月内接受了食管切除术，则被归类为手术组；若在该时间段内出现肺炎，则需确认食管切除术发生在肺炎之前才被纳入手术组。肿瘤特征（肿瘤分期cT、cN分期和GTV大小）因其与OAR剂量指标相关而被排除。为减少不同中心及时间维度上的OAR划分差异，采用深度学习自动轮廓勾划软件（TotalSegmentator）[22]自动勾划心脏和肺部轮廓。心脏的勾划方法与Feng等人的 atlas不同，排除了主动脉[23]。DVH参数从治疗计划中提取。

**样本量计算**
样本量计算依据Riley等人的建议[24]，[25]，结果显示至少需要801名患者才能可靠地开发模型。详细信息见补充材料A3。

**统计分析**
分析使用R 4.3.1和Python 3.10.4版本进行。为处理肺部和心脏DVH参数之间的高度相关性[26]，采用了主成分分析（PCA）将剂量数据转化为不相关的“剂量模式”。所有变量的缺失数据比例均低于5%，其中身体质量指数（BMI）的缺失率最高（18%）。假设数据缺失是随机分布的，我们采用链式方程进行多重插补以保持中心间的异质性。每个中心的数据分别插补十次。所有分析均针对每个插补后的数据集单独进行，并使用Rubin法则[27]汇总结果。

**交叉验证**
根据TRIPOD-cluster的建议[18]，使用PROBAST[28]对所有中心的预测因子和终点域进行了单阶段内部-外部交叉验证。该方法通过在一个中心以外的所有中心迭代训练模型来量化模型在区分能力和校准性能上的异质性（图1）。采用Firth惩罚逻辑回归模型进行多变量逻辑回归，以减少小样本偏差。

**下载**：下载高分辨率图像（462KB）
**下载**：下载全尺寸图像

**图1.** 开发和验证流程图，展示了正常组织并发症概率模型的开发与验证步骤（PCA=主成分分析）。

**预测因子选择**
在十折交叉验证框架内采用两步反向剔除方法选择预测因子：第一步优化预测性能（Brier分数），第二步在保持总体区分能力的前提下最小化中心间异质性（结合AUC、校准斜率和校准截距的变化）。在多数（≥6）折叠中保留的预测因子构成了最终模型。

**基线风险变异**
为考虑基线风险的差异，对每个“功能性治疗中心”分别拟合了校准截距。每个功能性治疗中心由一个放疗中心和其对应的外科手术中心组成。外部验证时，选择了肺炎发生率与验证中心最接近的训练中心的截距。

**模型评估**
模型区分能力通过AUC评估；校准性能通过校准图的视觉检查及校准斜率和大样本校准误差数值评估。

**敏感性分析**
为评估模型的稳健性，进行了三次敏感性分析。首先，鉴于ESOPEC试验确认FLOT方案对食管腺癌具有有效性[7]，我们仅在该亚组中评估了模型性能；由于CROSS仍是该亚组的金标准。为确保有足够样本量，仅纳入肺炎事件超过10次的中心。其次，采用混合终点定义进行敏感性分析，而非NCR评估的单一终点。对于接受手术的患者，肺炎定义基于DUCA登记册记录的术后30天内的情况；对于其他情况（即超出该时间窗口或未接受手术的患者），则使用NCR评估的原始终点。最后，通过临床勾划结果评估自动深度学习分割对模型的影响。研究人群的基线特征。

年龄（岁）平均值（标准差）
65.8（8.4） 66.2（8.5）
64.4（8.5） 65.5（8.8）
66.5（8.2） 67.0（8.1）
66.0（8.4） 0.03

BMI（kg/m2）平均值（标准差）
26.6（4.9） 26.4（4.6）
26.5（5.2） 26.2（4.5）
25.6（4.2） 26.4（4.2）
26.3（4.6） 0.18

PTV体积（cm3）平均值（标准差）
673.5（220.7） 638.0（281.8）
699.1（298.5） 496.3（217.0）
519.3（219.1） 525.0（191.6）
590.1（250.5）<0.01

GTV体积（cm3）平均值（标准差）
80.5（52.2） 62.5（62.8）
61.5（47.3） 63.6（49.9）
61.2（45.7） 63.0（43.6）
66.1（51.9）<0.01

平均心脏剂量（Gy）平均值（标准差）
17.6（6.2） 22.0（7.3）
19.7（6.8） 18.0（5.1）
19.7（5.2） 19.1（5.0）
19.3（6.2）<0.01

平均肺剂量（Gy）平均值（标准差）
7.2（3.0） 8.2（2.9）
7.8（2.8） 7.1（2.6）
8.5（2.8） 8.7（2.7）
7.9（2.9）<0.01

性别男性女性
283（79%） 75（21%）
160（86%） 76（21%）
257（80%） 66（20%）
201（76%） 62（24%）
232（79%） 36（20%）

PSQL（WHO 0/1+） 335（94%） 16（4%）
329（91%） 11（3%）
176（95%） 7（4%）
310（96%） 9（3%）
223（85%） 6（4%）
273（93%） 6（4%）

糖尿病并发症是否
49（14%） 309（86%）
56（16%） 304（84%）
32（17%） 280（87%）
43（13%） 251（86%）
41（14%） 255（14%）

肺部并发症是否
64（18%） 294（82%）
32（9%） 287（89%）
36（11%） 255（87%）
54（21%） 294（82%）

心脏并发症是否
31（9%） 327（91%）
24（7%） 336（93%）
11（6%） 328（91%）
20（6%） 175（94%）
12（4%） 27（91%）

技术混合 Vmat
148（41%） 133（37%）
25（8%） 256（71%）
155（83%） 155（83%）
281（87%） 281（87%）
161（55%） 124（70%）
73（20%） 73（20%）
4（1%） 4（1%）
27（8%） 27（8%）
0（0%） 0（0%）

cN0 cN1 cN2 cT1-2 cT3-4
115（32%） 125（35%） 118（33%） 118（33%）
130（36%） 150（42%） 150（42%）
67（36%） 118（33%）
114（43%） 150（42%）
66（37%） 118（33%）
65（37%） 275（77%）
281（23%） 275（77%）
50（27%） 275（77%）
<0.01 <0.01 <0.01 <0.01

组织类型鳞状细胞癌腺癌 T1-2 T3-4

肿瘤位置上部中部远端 GEJ/胃

合并症是否是否是否
282（79%） 21（6%） 21（6%） 21（6%）
35（10%） 35（10%） 35（10%）
154（83%） 154（83%）
125（4%） 125（4%）
52（14%） 52（14%）
72（22%） 50（27%）
36（10%） 36（10%）
50（27%） 50（27%）
<0.01 <0.01 <0.01 <0.01

切除情况是否是否是否

辅助治疗 Nivolumab 是否是否

表2. 最终开发的多变量正常组织并发症概率模型

关于敏感性分析，鳞状细胞癌亚组的判别能力和校准性能保持稳定（AUC 0.68；95% CI, 0.43–0.92；校准斜率 0.89；95 CI, ?0.75–2.53；校准截距 0.17；95 CI, ?0.12–0.46）。当使用DUCA注册处的替代终点定义时，性能仅略有下降（AUC 0.64；95% CI, 0.60–0.68；校准斜率 0.71；95 CI, 0.45–0.96；校准截距 ?0.14；95 CI, ?0.40–0.12）。此外，使用临床分割而不是自动化分割时，结果也保持一致（AUC 0.68；95% CI, 0.63–0.72；校准斜率 0.92；95 CI, 0.61–0.92；校准截距 0.01；95 CI, ?0.14–0.17）。

我们开发并验证了一个用于食管癌患者接受nCRT时肺炎的NTCP模型，该模型表现出良好的判别能力、出色的校准性能、低中心间异质性以及对不同终点定义、组织亚型和OAR delineation方法的鲁棒性。最终模型结合了三种剂量模式、临床预测因子（如既往肺疾病、糖尿病和食管切除状态），将心脏和肺部的剂量与肺炎的发生联系起来。通过包含完整的DVH曲线，这些剂量模式提供了比单独参数更全面的剂量测量。为了有效临床应用，该模型应直接整合到治疗计划系统（TPS）中，以评估和优化基于模型中包含的完整DVH曲线的不同计划。将模型简化为基于规则的约束（例如，基于MLD或MHD）会错误地表示复杂的剂量交互作用，并可能导致次优的规划。

值得注意的是，尽管在整个队列中剂量模式3与肺炎显著相关，但在Centre D中心显示出相反的关联（虽然不具有统计学意义）。此外，该模型在Centre D中心的性能较差，这是由于缺乏预测因子与结果之间的关联，表明未测量的中心级因素（如患者选择）改变了这些关系。因此，未来的外部验证研究需要确定这些因素并解释观察到的性能差异。为了确保模型在其他中心的有效性，我们将Centre D从最终分析中排除，从而包括了来自其他五个机构的1,459名患者。

图3A显示了选定的变量，包括既往肺疾病、糖尿病、食管切除状态和前三种剂量模式，其系数见表2。最终模型在不同中心的性能稳定（AUC：I2 = 0 [0–86]，斜率：I2 = 32 [0–91]；大规模校准：I2 = 0 [0–80]），汇总AUC为0.68（95% CI 0.63–0.72），校准效果出色（图3B）。

下载：下载高分辨率图像（970KB）
下载：下载全尺寸图像

图3. A–B 变量选择和模型性能。A. 使用10折内外部交叉验证的向后选择结果。条形图显示了基于Brier分数和中心间异质性的变量选择。B. 最终模型的判别能力和校准。

结论
我们开发并验证了一个NTCP模型，用于预测接受nCRT的食管癌患者的肺炎风险。该模型具有良好的判别能力、出色的校准性能、低中心间异质性，并对不同的终点定义、组织亚型和OAR delineation方法具有鲁棒性。最终模型结合了三种剂量模式以及临床预测因子（既往肺疾病、糖尿病和食管切除状态），将心脏和肺部的剂量与肺炎的发生联系起来。通过包含完整的DVH曲线，这些剂量模式提供了比单独参数更全面的剂量测量。为了有效临床应用，应将模型直接整合到治疗计划系统（TPS）中，以评估和优化基于模型中包含的完整DVH曲线的不同计划。将模型简化为基于规则的约束（例如，基于MLD或MHD）会误解复杂的剂量交互作用，并可能导致次优的规划。

值得注意的是，剂量模式3在整个队列中与肺炎显著相关，但在Centre D中心显示出相反的关联（尽管不具有统计学意义）。此外，该模型在Centre D中心的性能较差，这可能是由于缺乏预测因子与结果之间的关联，表明未测量的中心级因素（如患者选择）改变了这些关系。我们的回顾性设计无法识别这些与异质性相关的变量。因此，需要未来的外部验证研究来分离这些因素并解释观察到的性能差异。为了确保模型在优化放疗计划和指导治疗选择方面的有效性，我们的验证优先考虑了模型的普适性和校准性能，这在其余五个中心中表现良好。为了确保安全的临床应用，我们建议在快速学习的医疗框架内实施该模型[30]。这样的框架允许在TPS系统中部署后对模型性能进行前瞻性验证和持续监控，支持其随时间的改进[31]。

通过在开发的模型中包含三种剂量模式，该NTCP模型可以估计高级放疗技术（如PRT或MR引导的适应性放疗）对个别患者的预期益处[32]。此外，我们的模型首次正式量化了心脏低剂量体积与高剂量体积之间的权衡（剂量模式3）。这使得可以直接优化计划以最小化预测的肺炎风险。然而，应记住，心脏-肺部剂量平衡也影响其他结果，包括心脏毒性[33]、[34]、淋巴细胞减少[35]和总体生存率[37]。

本研究的一个主要优势是大规模的多中心设计。据我们所知，这是首个针对EC的此类肺部NTCP模型。在最终模型中，表示基本风险水平的截距在各中心之间有显著差异。对于未来的验证或应用，我们建议使用与验证或应用队列的基线肺炎发病率最接近的开发中心?截距（表1）。基线风险的差异可能反映了未测量的中心级因素（如手术经验或围手术期护理）的变化。然而，事后分析表明，用更详细的变量（如手术方法或吻合口位置）替换手术状态并没有显著改变模型的系数，表明二进制是/否变量能够充分代表与食管切除相关的总体风险。

然而，纳入这种术后变量对模型在术前风险评估中的预期用途提出了挑战。理想情况下，应纳入术前不进行手术的风险。由于目前没有模型能够准确预测不进行手术的概率，因此保留了手术状态变量以进行模型开发，以确保临床相关性和预测能力。选择如何设置“食管切除”变量取决于临床应用。对于模型在术前风险分层中的预期用途，我们建议将“食管切除”变量设置为“是”，因为它作为治疗意图的替代指标。这将高估那些计划进行手术但最终未进行手术的29%患者的肺炎风险。相反，对于“观察等待”患者，模型可能会低估风险，因为许多患者会接受更高风险的挽救性食管切除[39]、[40]。

最近，围手术期FLOT作为一种（新）辅助治疗方式出现在腺癌患者中，在随机化的ESOPEC试验中显示出改善的无病生存率和总体生存率[7]。然而，凭借现代放疗技术和最佳化疗方案，nCRT仍然是对于没有或仅有有限淋巴结受累、不适合三联化疗或希望保留器官的AC患者的有价值的治疗选择[39]。该模型的风险估计可以指导选择替代治疗策略，如FLOT，通过量化并发症高风险的患者，同时使外科和围手术期团队能够实施预防措施。

总之，开发的NTCP模型为个性化食管癌治疗提供了有前景的工具。通过优化放疗计划、支持共享决策和指导先进技术的分配，该模型可以整合到现有的NTCP基础选择平台或计划评估仪表板中，以减少肺部并发症。穆伊萨：写作——审稿与编辑；写作——初稿创作；数据验证；研究指导；研究方法设计；资金申请；数据整理与处理；概念框架构建。

联系信箱：

粤ICP备09063491号

热点排行