《Frontiers in Immunology》:A multidimensional clinical prediction model for early screening of recurrent spontaneous abortion: integrating coagulation, immune, and endocrine markers
编辑推荐:
本文献构建了一个基于Transformer架构(TabPFN)的多维临床预测模型,通过整合易获取的凝血、免疫、内分泌等常规生物标志物,实现了对复发性流产(RSA)高危人群的精准早期识别。该模型不仅展现出优异的预测性能(ROC-AUC达0.927),其筛选出的简约六指标模型(aPS/PT、PC、ANA、AT-III、TT、BMI)在保持高准确率(AUC=0.925)的同时,显著提升了临床筛查的可行性与成本效益,为资源有限环境下的个性化防治提供了有力工具。
引言
复发性流产(RSA)定义为与同一性伴侣连续发生两次及以上、孕28周前的妊娠丢失,是全球范围内常见的早期妊娠并发症,约影响0.5%–2.5%的育龄女性。RSA病因复杂,涉及凝血异常、免疫失调、内分泌功能障碍、遗传倾向、解剖结构异常、环境暴露及心理社会因素等多系统交互作用。尽管进行了广泛的诊断评估,仍有50-70%的病例原因不明,凸显了其复杂性和多因素特性。病理生理学上,免疫失调和血栓前状态被认为是最常见的母体病因,而不良生活方式及心理因素则是易感风险。RSA很少是单一系统缺陷,而是源于系统领域间的“致病性交互作用”。2025年发布的《复发性流产病因学筛查临床实践中国专家共识》推荐将抗磷脂抗体和抗核抗体(ANA)作为免疫因素的一线筛查项目;对于血栓前状态,则推荐凝血功能、血小板聚集和血栓弹力图,必要时筛查遗传性易栓症(蛋白C、蛋白S、抗凝血酶III)。人工智能(AI)的兴起为RSA预测引入了新方法,但现有模型多依赖高维特征集,在初级保健环境中可能难以普遍获取或成本高昂。本研究旨在通过整合人口统计学、血液学、免疫学和代谢指标,利用现代机器学习架构建立一个多维RSA风险评估模型,重点关注常规可得的临床生物标志物,以确保模型的可行性和成本效益。
材料与方法
本研究为回顾性研究,纳入了2020年1月至2024年12月期间在广东省生殖医院进行生殖健康评估的女性临床数据。最初根据2022年美国生殖医学会标准,确认了859名RSA患者(定义为连续两次及以上、经超声证实为临床可存活妊娠、在孕20周前终止的妊娠)。对照组包括367名年龄匹配、月经规律、至少有一次活产史的健康育龄女性,且无不良妊娠结局或共存的自身免疫/内分泌疾病史。血液样本在标准化条件下采集以尽量减少实验室变异。排除标准包括:夫妻任一方染色体异常、生殖道解剖结构异常、通过辅助生殖技术受孕、使用影响结果的激素疗法或全身性药物、严重系统性疾病以及关键实验室数据缺失超过20%的不完整临床记录。应用排除标准后,最终数据集包含181名RSA女性和104名健康对照。受试者筛选流程详见下图。
研究变量分为六个临床相关领域:人口统计学因素(年龄、体质量指数(BMI))、凝血功能(凝血酶时间(TT))、免疫学因素(抗核抗体(ANA)、抗双链DNA抗体(anti-dsDNA))、遗传性易栓症标志物(抗凝血酶III(AT-III)、蛋白S(PS)、蛋白C(PC)、亚甲基四氢叶酸还原酶C677T(MTHFR C677T)多态性)、获得性易栓症标志物(抗磷脂酰丝氨酸/凝血酶原抗体(aPS/PT)、狼疮抗凝物(LA)、抗心磷脂抗体(aCL))以及内分泌-代谢因素(促甲状腺激素(TSH)、甲状腺素(T4))。数据预处理包括将数据集按8:2随机分为训练集和测试集,连续变量使用Z分数标准化,年龄分组,BMI按亚洲标准分类,分类变量使用独热编码。为进行广泛的方法学比较,本研究纳入了十种经典机器学习算法以及一种基于Transformer架构、适用于表格数据的深度学习模型TabPFN。模型性能通过五折交叉验证进行评估,使用准确率、精确率、召回率、特异性、F1分数和受试者工作特征曲线下面积(ROC-AUC)等标准指标。模型可解释性通过SHapley可加性解释(SHAP)进行评估。为制定人群筛查策略,使用随机森林进行特征选择,采用平均不纯度减少(MDI)度量特征重要性,并结合递归特征消除(RFE)来减少特征维度。
结果
临床样本特征
RSA组与健康对照组基线特征比较显示,两组在AT-III、T4、TT、dsDNA、aCL和aPS/PT上存在统计学显著差异。
预测模型的开发
在比较的多种机器学习模型中,整合六个临床领域特征的TabPFN多维模型取得了最佳的RSA风险预测判别性能(ROC-AUC = 0.927, 95% CI 0.891–0.947),优于所有对比算法。不同模型的ROC曲线比较及TabPFN五折交叉验证ROC曲线的一致性评估证实了其优异的判别能力和泛化稳定性。
数据增强
为应对类别不平衡对模型性能的潜在影响,评估了合成少数类过采样技术(SMOTE)的效果。应用SMOTE后,数据集从285个样本扩充至362个,特征空间分布更加均衡,所有性能指标均有实质性提升,敏感度提升最为明显,判别能力ROC-AUC提升至0.927。
特征组消融实验
为系统评估每个特征类别对模型性能的贡献,进行了特征组消融分析。结果显示,移除任何一个单一的生物学类别都会降低模型性能,支持了多维临床整合的互补价值。其中,移除获得性易栓症相关特征(aPS/PT、LA、aCL)导致性能下降最显著(ROC-AUC从0.927降至0.856),其次是遗传性易栓症和免疫学特征。凝血(TT)、内分泌-代谢(TSH、T4)和人口统计学(年龄、BMI)特征的影响相对较小。
特征选择实验
尽管多维模型实现了高预测精度,但其临床效用受数据获取复杂性和成本限制。因此,应用RFE将模型提炼为一组精简的关键预测因子组合。实验结果显示,特征数量与模型性能之间存在显著的非线性关系。当特征数量从1增加至6时,ROC-AUC稳步提升,并在六特征组合时达到最优值0.925。超过此点后,进一步增加特征对模型性能的改善微乎其微。最终确定的六个最稳健的预测因子是:aPS/PT、PC、ANA、AT-III、TT和BMI。
基于最佳临床截断值的风险分层
为增强六生物标志物模型的转化效用,通过最大化ROC曲线上的约登指数确定了最佳决策阈值(0.678预测概率)。参与者据此被分为高风险组(>0.678)和低风险组(≤0.678)。结果显示,高风险层的后续流产率为88%,而低风险层为10%,证实所选阈值能有效区分具有临床意义的风险类别。
模型在临床重要亚组中的性能
为进一步评估模型在风险分层中的可靠性和临床实用性,对基线风险较高的人群进行了亚组分析,包括高龄产妇(年龄>35岁)和较高体质量指数(BMI>24)者。模型在所有关键亚组中均保持了优异的判别能力,在高BMI亚组中表现尤其突出(准确率0.943,ROC-AUC 0.947),表明在代谢易感个体中,模型具有更强的风险区分能力。
模型解释
为直观解释所选变量,采用SHAP分析来可视化每个特征对模型预测RSA风险的贡献。如下图所示,aPS/PT、PC、ANA、AT-III、TT和BMI被确定为六个最具影响力的预测因子。aPS/PT和ANA水平升高、AT-III活性降低、TT延长以及BMI升高,对应着SHAP值增加,表明RSA可能性更大。
为进一步研究这些生物标志物之间复杂的相互依赖关系,生成了SHAP交互热力图。可视化结果显示,RSA风险是由血栓-免疫-代谢串扰驱动的,而非孤立的异常。值得注意的是,aPS/PT+TT、AT-III+aPS/PT以及TT+PC等组合表现出强烈的协同效应。这些模式表明,获得性或遗传性易栓症与凝血功能障碍的汇聚,创造了一种强大的高凝“双重打击”状态。代表性的SHAP力图进一步展示了个体特征的贡献。
临床诊断可视化工具的开发
为促进模型的临床转化和广泛验证,基于优化的AI-RSA开发了一个用于RSA风险分层的交互式平台。临床医生可以输入六个临床参数以获得流产风险的概率评分。在标准办公电脑上,模型推理延迟约为5毫秒,可无缝集成到实时产前咨询中。
讨论
RSA仍然是一个重大的临床挑战。为弥补现有模型的不足,我们利用TabPFN算法,基于涵盖人口统计学、凝血、免疫学和易栓症相关领域的多维临床特征集,开发了一个高性能、可解释的RSA风险预测模型。我们的全模型取得了0.927的ROC-AUC,显示出强大的早期风险分层判别能力。重要的是,通过系统消融研究和基于SHAP的可解释性分析,我们确定了一组由六个常规可得变量(aPS/PT、PC、ANA、AT-III、TT、BMI)组成的核心集合,它们共同形成了一个精简但高精度的预测组合(AUC≈0.925)。这个简化的模型在保持与全特征集近乎等同性能的同时,为大规模筛查提供了一种经济有效的替代方案。
我们的研究结果确定获得性易栓症是RSA最具影响力的决定因素,反映了血栓前状态的分子和免疫驱动因素。该领域整合了关键的自身免疫介导的凝血病,特别是抗磷脂综合征(APS)。遗传性易栓症的预测重要性排名第二,反映了个体遗传性血栓形成倾向。在汉族人群中,PC、PS和AT-III缺陷是主要的遗传标志物。在我们的多维框架内,免疫学因素是RSA风险分层的关键组成部分,强调了免疫失调是RSA的重要病因驱动因素。凝血谱提供了止血平衡的功能评估,有助于识别血栓前状态(PTS)。当RSA患者处于血栓前状态时,其凝血功能会发生相应变化。人口统计学(如年龄、BMI)和内分泌-代谢因素(如TSH、T4)增加了基础的生理背景,增强了模型的稳定性和泛化能力。
此外,我们系统地从RSA的六个关键生理维度中提炼了14个候选预测因子,并建立了一个包含六个核心指标的简化模型:aPS/PT、AT-III、PC、ANA、TT和BMI。这个整合组合显著降低了检测复杂性,同时保持了出色的预测性能,为精确的RSA风险分层提供了一种临床实用策略。其中,aPS/PT成为获得性易栓症最重要的标志物。遗传性易栓症标志物AT-III和PC也被保留在最终模型中,反映了它们对高凝状态和不良妊娠结局的重要贡献。ANA阳性被选为免疫标志物,突出了自身免疫失调在RSA中的作用。TT在评估RSA患者血栓前状态方面显示出较高的预测性能。TT延长反映了体内凝血功能从微血栓形成向纤溶亢进的病理状态转变。最后,BMI升高作为模型中唯一的人口统计学/代谢标志物,通过诱导氧化应激、低度炎症和胰岛素抵抗独立增加RSA风险。
总之,这六个指标构成了一个多维预测模型,囊括了RSA背后的“凝血-免疫-代谢”交互作用。重要的是,SHAP分析证实,即使单个标志物保持在正常范围内,它们的组合模式也能揭示与多因素致病模型一致的高风险表型。例如,我们发现aPS/PT阳性、TT延长和AT-III缺乏等生物标志物的组合对凝血功能有显著影响。其中,aPS/PT + TT、AT-III + aPS/PT和TT + PC的组合显示出强烈的协同效应,揭示了免疫和凝血功能异常的综合作用。这些特征性组合,特别是当免疫异常和凝血功能障碍共存时,形成了一种“双重打击”状态,导致流产风险显著增加。这种范式转变——从孤立的标志物检测到系统层面的复合建模——为RSA的精准筛查和早期干预提供了一个强有力的框架。
尽管取得了这些重要发现,仍需承认一些局限性。首先,所有数据均来自单一中心,可能引入选择偏倚并限制模型的外部有效性。其次,虽然确定了几个关键预测因子,但它们之间复杂的交互机制值得深入研究。未来需要在未经过选择的一般人群队列中进行前瞻性验证,并整合多维数据和分子生物学方法,以进一步阐明RSA的病理生理机制。
总之,本研究提出了一个高精度的RSA预测模型,并为其背后复杂的多系统相互作用提供了新见解。确定了一个六生物标志物组合,可用于实际、经济有效的人群筛查。这些发现有望推动RSA预防和管理的个性化方法,最终改善受影响个体的生殖健康结局。