基于机器学习的慢性鼻窦炎伴鼻息肉患者美泊利单抗2年治疗“超级应答者”预测模型构建与关键生物标志物鉴定

【字体：大中小】 时间：2026年02月13日 来源：Frontiers in Allergy 3.1

编辑推荐：

　　本研究利用决策树、逻辑回归、K近邻及极端梯度提升(XGBoost)四种机器学习算法，首次构建并评估了预测慢性鼻窦炎伴鼻息肉(CRSwNP)患者对美泊利单抗(mepolizumab)长期(24个月)治疗产生“超级应答”的模型。研究证实，高基线血液嗜酸性粒细胞(BEC)、高基线血液中性粒细胞(BNC)以及不合并阿司匹林加重呼吸系统疾病(AERD)是预测超级应答的关键因素，其中XGBoost模型展现出最佳预测性能(ROC AUC=0.766)。该研究为CRSwNP的精准治疗与临床决策提供了基于人工智能的新策略。

1 引言

慢性鼻窦炎伴鼻息肉(Chronic Rhinosinusitis with Nasal Polyps, CRSwNP)是慢性鼻窦炎的一种表型，其特征是全身性2型嗜酸性粒细胞炎症，其中白细胞介素-5(Interleukin-5, IL-5)起着关键的致病作用。高达60%的CRSwNP患者伴有哮喘，而合并哮喘的患者通常具有更严重的鼻窦炎症，且更可能需要接受鼻窦手术。阿司匹林加重呼吸系统疾病(Aspirin-Exacerbated Respiratory Disease, AERD)，也称为非甾体抗炎药加重呼吸系统疾病或Samter三联征，特指同时患有CRSwNP和哮喘，并在使用环氧合酶-1抑制剂后出现呼吸道反应的患者。这类患者鼻息肉复发风险更高，常需接受修正性内窥镜鼻窦手术(Endoscopic Sinus Surgery, ESS)或系统性皮质类固醇(Systemic Corticosteroids, SCS)治疗。

针对2型炎症的生物制剂疗法，如抗IL-5药物美泊利单抗，已可用于治疗伴有严重疾病、哮喘、AERD及术后复发的难治性CRSwNP。美泊利单抗是一种人源化IgG1/κ单克隆抗体，能选择性结合IL-5，从而抑制嗜酸性粒细胞的发育和存活。然而，即使在靶向生物治疗下，仍有相当比例的CRSwNP患者无应答。在SYNAPSE III期试验中观察到25%的无应答率。由于CRSwNP表型多样、治疗反应不一，迫切需要可靠的预测工具来指导治疗决策。

机器学习(Machine Learning, ML)能够识别复杂模式，有助于开发更精准的治疗策略。本研究应用四种机器学习模型——决策树(Decision Tree, DT)、逻辑回归(Logistic Regression, LR)、K近邻(K-Nearest Neighbors, KNN)和极端梯度提升(Extreme Gradient Boosting, XGBoost)——以加强CRSwNP患者的分类和生物制剂应答预测。与主要检验关联性的传统统计比较不同，机器学习能够学习复杂的非线性相互作用和高阶特征关系，从而在异质性队列中揭示细微的应答表型。鉴于临床数据集往往样本量有限且存在类别不平衡，我们采用了结合超参数优化的分层K折交叉验证，以获得更可靠、偏差更小的样本外性能估计，并减少过拟合。

本研究旨在通过机器学习技术，识别最可能对美泊利单抗产生良好应答的CRSwNP患者，从而提升精准医疗水平，同时明确影响治疗结局的临床变量。作为次要目标，本研究还在一个真实世界的CRSwNP合并哮喘患者队列中，评估了美泊利单抗在2年期间及多次随访中的持续疗效和安全性。

2 材料与方法

2.1 研究设计

本研究是一项回顾性单中心观察性研究，旨在回顾在我们健康区域气道疾病多学科单元就诊的成年CRSwNP合并哮喘患者的临床数据。患者自2018年1月至2024年12月期间，在标准护理基础上开始接受每4周皮下注射一次100 mg美泊利单抗治疗。CRSwNP的诊断依据2020年《欧洲鼻窦炎和鼻息肉立场文件》(European Position Paper on Rhinosinusitis and Nasal Polyps, EPOS)标准。哮喘依据2022年全球哮喘防治倡议(Global Initiative for Asthma, GINA)定义进行诊断，过敏性鼻炎依据2019年《过敏性鼻炎及其对哮喘的影响》(Allergic Rhinitis and its Impact on Asthma, ARIA)指南诊断。所有重度未控制哮喘患者均符合美国胸科学会/欧洲呼吸学会(American Thoracic Society/European Respiratory Society, ATS/ERS)标准。

研究共纳入84名患者的预处理人口学特征和病史进行分析，包括吸烟史、内窥镜鼻窦手术史、合并哮喘、AERD、过敏性鼻炎及特应性。纳入标准为：年龄大于18岁、具有严重CRSwNP症状（定义为：内窥镜鼻息肉评分≥4，且每侧鼻腔最低评分为2；鼻窦结局测试评分≥40；过去10年内接受过至少1次ESS；标准护理症状控制不佳和/或既往ESS失败；或极少数因医学禁忌无法手术的CRSwNP合并哮喘患者）。排除标准包括：入组前4周内因哮喘急性加重住院、入组前接受免疫抑制治疗、以及因慢性自身免疫性疾病需长期皮质类固醇治疗的患者。

在基线及治疗6、12、24个月后评估以下结局指标：经验证的鼻窦结局测试-22(Sinonasal Outcome Test-22, SNOT-22)评分；使用视觉模拟量表(Visual Analogue Scale, VAS)评估临床症状（鼻塞、流涕、嗅觉障碍、面部疼痛和总体症状评分）；鼻息肉评分(Nasal Polyp Score, NPS, 范围0-8)，用于表达鼻息肉的内窥镜扩展范围。在基线和6、12、24个月时，采集外周血样本以测定血清总免疫球蛋白E(Total IgE)、血液嗜酸性粒细胞计数(Blood Eosinophil Count, BEC)和血液中性粒细胞计数(Blood Neutrophil Count, BNC)。

特应性特征和气源性过敏原致敏通过欧洲过敏与临床免疫学学会描述的皮肤点刺试验阳性来确定。同时记录泼尼松摄入量。在基线时进行鼻窦计算机断层扫描(Computed Tomography, CT)，并依据Lund-Mackay分期系统进行评分。哮喘控制情况使用哮喘控制测试(Asthma Control Test, ACT)进行评估，ACT评分大于19分视为控制良好，变化≥3分可能表明哮喘控制具有临床意义的变化。AERD的临床诊断依据哮喘、CRSwNP以及对阿司匹林和其他非甾体抗炎药产生呼吸道反应的三联征确认。临床生活质量改善定义为SNOT-22评分改善≥8.9分，相当于至少一个最小临床重要差异(Minimal Clinically Important Difference, MCID)。

根据改编的EPOS/EUFOREA 2023更新标准以及EUFOREA专家委员会2021年提出的定量阈值，对生物制剂的应答进行评估。患者根据治疗临床反应分为以下几组：超级应答者(满足全部5项标准)、良好-优秀应答者(满足4项标准)、差-中度应答者(满足1-3项标准)、无应答者(0项标准)。5项标准包括：NPS减少（至少1分）；SNOT-22评分降低（至少8.9分）；VAS嗅觉评分改善（至少3分）；合并症影响减轻（ACT评分改善至少3分）；以及无需挽救治疗（无需SCS摄入或手术）。同时收集观察期内与使用美泊利单抗相关的不良事件。

2.2 统计分析

患者特征采用描述性统计进行总结。分类变量以频数和百分比表示，连续变量因Shapiro–Wilk检验显示非正态分布，以中位数和四分位距(Interquartile Range, IQR)表示。使用Wilcoxon符号秩检验和Hodges-Lehman估计量评估评分随时间的变化。使用Mann–Whitney U检验评估2年时超级应答者与非超级应答者两组间结局评分的差异。分类变量的比较采用卡方检验或Fisher精确检验。计算Spearman相关系数以确定从基线到24个月结局评分变化与生物标志物之间的关系。数据预处理使用IBM SPSS Statistics 29.0版。统计分析和图表生成在Jupyter Notebook环境中使用Python 3.12.7进行。统计显著性设定为p< 0.05。

2.3 机器学习建模

2.3.1 机器学习模型构建与评估

我们评估了包括DT、LR、KNN和XGBoost在内的多种预测性机器学习模型，以识别美泊利单抗超级应答的可靠预测因子。预测基于治疗2年后的59个样本，并依据改编的EPOS/EUFOREA 2023标准。纳入模型的临床变量包括AERD状态、基线BEC和BNC、总IgE以及Lund-Mackay评分，这些变量的选择是基于其在既往评估CRSwNP生物疗效研究中的一致使用和报告的预测价值。这些变量反映了2型疾病炎症和严重程度的关键标志物，与治疗应答机制相关。年龄、性别和手术史因既往证据表明其与炎症和影像学标志物相比预测影响有限而被排除。

为预测超级应答，为每个模型计算了灵敏度、特异度、F1分数、受试者工作特征曲线下面积(Receiver Operating Characteristic Area Under Curve, ROC AUC)和总体准确率等性能指标。为确保稳健的分层和可靠的评估，我们使用了5折K折交叉验证，对各模型在独立验证集上的评估指标取平均值，以获得泛化性能的稳健估计。

2.3.2 模型解释

为了提高最佳模型的可靠性和可解释性，我们使用沙普利加性解释(Shapley Additive Explanations, SHAP)来识别和排序关键特征，量化每个特征对模型预测的影响。我们计算了每个特征在所有患者中的平均绝对SHAP值。给定患者和特征的SHAP值量化了该特征对模型预测超级应答者状态的贡献，较高的平均绝对SHAP值表示对模型输出的总体影响力更大。这种方法能够在复杂、非线性的机器学习模型中进行全局和个体化的特征影响解释。此外，还通过部分依赖图(Partial Dependence Plots, PDPs)分析了变量的潜在非单调效应。PDPs通过可视化单个变量变化如何影响模型预测，增强了机器学习输出的透明度并支持其临床相关性。

3 结果

3.1 基线患者特征及参数变化

研究共逐步纳入84名连续患者。无患者停止治疗或退出研究，所有参与者均完成了6个月的随访，70名(83%)完成了12个月的随访，59名(70%)完成了24个月的随访。患者基线特征和2型炎症生物标志物如所示。所有患者均合并哮喘，54.8%的患者合并AERD。大多数患者(71.4%)的BEC水平≥150 cells/μL，54.8%的患者总IgE水平超过100 IU/mL。血液中性粒细胞计数的中位数为3,920 cells/μL。88.1%的患者既往接受过ESS，6%的患者在生物治疗后需要额外的手术干预。少数患者(9.5%)既往因重度未控制哮喘接受过奥马珠单抗治疗，而91%的患者在开始美泊利单抗治疗时正在接受SCS。未报告与治疗相关的不良事件。

临床结局随时间的变化情况如所示。在治疗6、12和24个月后，所有评分均显著改善(p< 0.001)。SNOT-22评分显著降低，基线中位数为68分，至24个月时中位数差异降低了56.5分。VAS总体症状评分和VAS嗅觉评分的基线值分别为7分和10分，在整个研究期间观察到持续改善。NPS和ACT评分也报告了显著改善(p< 0.001)，在24个月时，NPS中位数降低了2.5分，ACT评分中位数改善了6.5分。

3.2 超级应答者与非超级应答者的特征

经过2年的随访治疗后，44.1%的患者被归类为超级应答者；33.9%为良好-优秀应答者，22%为差-中度应答者。显示，超级应答者中AERD的发生率显著低于非超级应答者(42.3% vs. 69.7%, p= 0.035)。在基线时，超级应答者的BEC和BNC值高于非超级应答者（分别为445 vs. 302 cells/μL和4,170 vs. 3,600 cells/μL），而血清总IgE无差异。两组在既往鼻窦手术史或既往生物制剂使用方面未观察到差异。相比之下，治疗后手术和皮质类固醇依赖在两组间存在显著差异，这与超级应答者无需挽救治疗的情况一致。经过2年美泊利单抗治疗，超级应答者表现出显著更大的改善，反映为更低的临床结局评分。在分析中，未观察到美泊利单抗的应答因性别、吸烟习惯、气源性过敏原致敏或年龄而有显著差异。

3.3 预测美泊利单抗超级应答的基线生物标志物

为研究基线生物标志物（BEC、BNC、血清总IgE）与CRSwNP临床结局之间的潜在关联，分别对基线结局评分和2年后这些结局的变化进行了相关性分析。如所示，基线血液中性粒细胞与ACT评分呈负相关(r = -0.28, p= 0.033)，血清总IgE与VAS-流涕评分呈正相关(r = 0.27, p= 0.038)。在24个月内，血液中性粒细胞与VAS总体评分、嗅觉和流涕症状的改善呈正相关，基线嗜酸性粒细胞与NPS改善呈正相关(r = 0.35, p= 0.007)。

3.4 机器学习模型的预测性能

本研究在真实世界条件下，使用5折交叉验证评估了四种机器学习算法——DT、LR、KNN和XGBoost。基于决策树的模型（DT和XGBoost）优于LR和KNN，性能总结如所示。XGBoost显示出最高的判别能力(AUC = 0.766)，利用基线生物标志物、Lund-Mackay评分和AERD状态预测了2年时对美泊利单抗的超级应答，达到了72.9%的准确率、F1分数0.68、灵敏度65.4%和特异度78.8%，正确分类了59名患者中的43名。虽然DT模型在大多数指标上表现相似，但其AUC略低(0.76)，四种模型的ROC曲线比较如所示。

3.5 机器学习模型的可解释性

SHAP图如所示。通过XGBoost模型的SHAP分析，识别了超级应答者状态的预测因子。BNC、BEC和AERD状态表现出最高的平均绝对SHAP值，表明它们是预测超级应答者状态最具影响力的特征。相比之下，IgE和Lund-Mackay评分显示出较低的平均绝对SHAP值，反映了对分类决策的较小影响。

SHAP摘要图简洁地说明了每个特征对模型预测的贡献幅度、普遍性和方向性。血液中性粒细胞和血液嗜酸性粒细胞位于图的顶部，是预测美泊利单抗治疗超级应答的最具影响力特征。较高的血液中性粒细胞和嗜酸性粒细胞水平（图中显示为红色）与较高的SHAP值相关，表明超级应答的可能性更大。AERD状态表现出强大的区分能力，如其红色和蓝色点的分离所示。AERD始终与较低的SHAP值相关，表明获得优秀治疗应答的预测概率降低。SHAP图显示，患有AERD的患者（红色）与不患AERD的患者（蓝色）相比，成为美泊利单抗超级应答者的可能性更低。最后，IgE水平和Lund-Mackay评分对模型预测的影响最小，并且在患者间显示出较不一致的方向性效应。

使用XGBoost模型生成的部分依赖图说明了基线BEC、BNC和AERD对美泊利单抗治疗超级应答概率的边际效应。血液嗜酸性粒细胞的PDP（范围：0–800）显示出一个非单调模式：预测概率最初从约0.6下降至0.2（计数约150–350处），随后急剧上升至峰值约0.8（约450处），然后稳定在0.7左右（高于600的值）。这表明可能存在阈值效应，即低和高血液嗜酸性粒细胞计数都可能与良好的结局相关。血液中性粒细胞的PDP（范围：2,000–8,000）显示概率在4,000之前相对稳定在0.4附近，此后曲线波动显著，在稳定之前达到接近0.8的值，表明存在潜在的非线性相互作用。相比之下，AERD的PDP（二元变量：0=不存在，1=存在）显示线性下降趋势，超级应答的预测概率从0.7下降到接近0.4，表明AERD患者获得良好应答的可能性显著降低。这些关系如所示。

4 讨论

美泊利单抗在改善患者报告结局和减轻鼻息肉负担方面的有效性已在临床试验和真实世界研究中得到证实。由于2型炎症（包括IL-5升高）的共同普遍性，合并CRSwNP和重度哮喘的患者可能对美泊利单抗反应良好。CRSwNP、哮喘和/或AERD患者因这一共同通路而疾病负担加重。

据我们所知，这是首个使用机器学习来表征接受美泊利单抗治疗的CRSwNP患者中超级应答者的研究。为了评估对生物制剂治疗的反应，我们采用了改编的EUFOREA/EPOS 2023更新标准。我们的超级应答者患者符合综合标准，且无需SCS或ESS。此外，患者必须在临床症状、合并症和生活质量方面表现出改善。经过2年美泊利单抗治疗，44.1%的患者成为超级应答者。

机器学习算法如DT、随机森林、支持向量机和XGBoost已被证明在指导生物制剂治疗选择方面具有效用。在定义的临床和生物标志物条件下，预测美泊利单抗治疗超级应答者的预测性决策工具将显著提高治疗选择和资源分配的精确性。

除了AERD状态和Lund-Mackay评分等临床变量外，我们的模型还纳入了基线血液生物标志物（BEC、BNC和血清总IgE），以改进对生物治疗超级应答的预测。在所有分类器中，XGBoost达到了最高的ROC AUC。由于可解释性对于将机器学习输出转化为具有临床意义的见解至关重要，我们应用了SHAP和PDPs来补充预测准确性。SHAP值提供了特征贡献的局部一致性估计，而PDPs则提供了个体预测因子如何影响模型的全局视图，包括非线性和非单调效应。这些工具共同增强了模型的透明度，并通过使算法预测与既定的病理生理学推理保持一致，支持了临床决策。

SHAP摘要图显示，较高的血液中性粒细胞和嗜酸性粒细胞水平与较高的SHAP值相关，表明超级应答的可能性更高。在CRSwNP和哮喘患者中，AERD的存在代表了一种独特的疾病内型，其特征是严重的2型驱动炎症和高疾病负担。在启动生物治疗时识别AERD至关重要，因为它可能影响治疗反应的幅度和变异性。将AERD状态纳入预测模型可以增强应答分层的精确性，并支持在这一复杂患者群体中做出更个性化的治疗决策。AERD状态表现出强大的区分能力。较低的SHAP值始终与其存在相关，表明获得优秀治疗应答的概率较低。SHAP图显示，与未患AERD的患者相比，患有AERD的患者成为美泊利单抗超级应答者的可能性更低。

部分依赖图通过对所有其他变量的预测取平均，可视化了个别输入特征对模型预测输出的独立影响。使用XGBoost模型生成的PDPs显示了基线BEC、BNC和AERD对美泊利单抗治疗的边际效应。

与Bachert等人的研究一致，美泊利单抗显著降低了NPS、手术风险并改善了鼻部症状，无论是否合并AERD。我们观察到超级应答者患者中AERD的发生率(42.3%)远低于非超级应答者(69.7%)，且AERD状态与治疗超级应答之间存在显著关联。正如Baird等人的研究所示，我们研究中未对生物疗法产生反应的患者更可能患有AERD。在治疗2年的长期随访中，AERD合并症可能会影响治疗反应。

关于预测超级应答的其他因素，Lund-Mackay评分显示出较低的平均SHAP值，因此对分类决策的影响较小。这一观察结果可能与Baird等人的发现一致，他们观察到生物制剂无应答者与对照组之间的Lund-Mackay评分无显著差异。

多项真实世界观察性研究表明，美泊利单抗基于ACT评分的显著降低改善了哮喘控制。Bagnasco等人显示在治疗第一年哮喘控制（通过ACT评分衡量）有所增加，尽管在接下来的2年内数值趋于稳定。我们发现美泊利单抗在6、12和24个月时显著改善了哮喘控制，但在12至24个月期间改善程度较小。观察到ACT评分显著降低，美泊利单抗治疗2年后改善了6.5分。近期一项真实世界研究也证明了美泊利单抗在重度哮喘患者中的长期疗效和安全性。

在Bagnasco等人关于美泊利单抗的长期研究中，观察到哮喘和CRSwNP的患病率高于先前的研究。在患有重度哮喘和CRSwNP合并症的患者中，美泊利单抗在3年内显示出长期疗效。与哮喘相关的CRSwNP可能是美泊利单抗良好应答的指标。

我们的结果显示，在6、12和24个月时SNOT-22评分显著降低，改善幅度大于其他真实世界研究。正如Garcia等人指出的，我们研究中所有患者均合并哮喘，这可能影响了较差的基线SNOT-22评分以及2年后观察到的更大改善。Galletti等人发现，既往接受过ESS的CRSwNP患者基线SNOT-22评分值更高。在我们的研究中，88.1%的患者既往接受过该手术。

真实世界研究也证明了NPS的降低。与Orlando等人的发现一致，他们在美泊利单抗治疗12个月后观察到NPS的实质性降低（≥2分），而我们研究中NPS在24个月后显著降低了2.5分。

我们研究中的一个有趣发现是VAS嗅觉评分在6、12和24个月时均有改善，且在12至24个月期间存在显著差异。VAS嗅觉评分的基线值最初为10分，在6个月时降低了2.5分。持续改善在1年时降低了3分；到2年时，降低达到5.5分。这一结果与SYNAPSE研究的事后分析一致，该分析发现美泊利单抗通过VAS嗅觉评分和SNOT-22嗅觉/味觉项目评分改善了嗅觉。

Book等人观察到抗IL-5组的NPS无统计学显著下降，且SNOT-22评分和嗅觉评分也无一致改善。De Corso等人仅观察到嗅觉恢复略有改善。与Book等人结果的差异可能源于其研究样本量较小（10名患者）。我们研究的患者在基线时总IgE水平更高，71.4%的患者BEC≥150 cells/μL。因此，他们被认为具有高2型炎症，这与Book等人研究中抗IL-5患者的基线特征形成对比。

在SYNAPSE试验中观察到25%的美泊利单抗无应答率。根据Png等人的说法，高无应答率的一个潜在原因可能是生物制剂在降低NPS方面的疗效有限，尽管多项真实世界生物制剂疗效研究已证明美泊利单抗治疗可使NPS总体降低≥2分。

与Habenbacher等人的发现一致，我们发现基线BEC水平与治疗2年后NPS的改善呈显著正相关。

根据Png等人的研究，血清中性粒细胞计数在预测生物制剂不良应答方面未达到显著性，但观察到了这种趋势。Brkic等人和Habenbacher均未发现治疗前高中性粒细胞-淋巴细胞比值与度普利尤单抗治疗良好应答之间存在任何相关性。有趣的是，在我们的研究中，超级应答者患者与非应答者相比，基线BNC值更高。BNC与VAS总体症状评分的改善呈正相关，也与嗅觉/流涕症状领域的改善呈正相关。BNC表现出最高的平均绝对SHAP值，是预测超级应答者的一个重要因素。根据Kratchmarov等人的研究，美泊利单抗降低了对IL-5抑制有显著阳性反应患者的中性粒细胞活化标志物。抗IL-5治疗的临床疗效可能不仅仅归因于嗜酸性粒细胞，并且由于部分患者对生物制剂无应答，识别简易的生物标志物至关重要。

EPOS/EUFOREA 2023共识将血液嗜酸性粒细胞超过150 cells/μL作为推荐生物治疗的标准之一。血液嗜酸性粒细胞的PDP显示出非单调模式：超级应答的概率首先从约0.6下降到0.2（约150–350处），然后急剧上升到0.8（约450处），最后稳定在0.7（高于600的值）。这可能表明，推荐用于指示生物治疗的血液嗜酸性粒细胞值与较高的血液嗜酸性粒细胞值具有更高的超级应答概率之间存在良好的相关性。血液中性粒细胞计数在达到4,000之前，概率相对稳定在接近0.4。AERD的PDP呈线性下降，超级应答的预测概率从0.7下降到接近0.4。

BNC、BEC和AERD状态表现出最高的平均绝对SHAP值，表明它们是模型预测超级应答者状态最具影响力的特征。

这项真实世界研究表明，美泊利单抗对患有严重CRSwNP和合并哮喘的患者有效，尤其对那些不合并AERD的患者。我们的研究证明，美泊利单抗有效减小了鼻息肉大小并缓解了鼻塞。这导致了对鼻窦手术和SCS使用的需求减少。美泊利单抗显著改善了鼻窦症状和总体健康相关生活质量，同时保持了可接受的安全性。较高的基线血液嗜酸性粒细胞水平与美泊利单抗超级应答的可能性增加相关，支持了其作为预测性生物标志物的潜在作用，并加强了先前在嗜酸性粒细胞性哮喘中观察到的关联。关于CRSwNP生物治疗生物标志物的临床研究仍处于早期