基于人工智能的多变量分析揭示与复发性流产相关的免疫-生活方式模式:一项探索性回顾性研究

《Scientific Reports》:Multivariable AI-based analysis of immune–lifestyle patterns associated with recurrent pregnancy loss: an exploratory retrospective study

【字体: 时间:2026年03月06日 来源:Scientific Reports 3.9

编辑推荐:

  编者推荐 针对复发性流产(RPL)病因复杂、缺乏有效多变量预测模型的问题,研究人员运用深度学习模型(TabNet),对超过3.6万名女性的临床和实验室数据进行多变量AI分析。研究成功识别出高可靠性的免疫-生活方式关联模式,其模型AUC高达0.985。该结果为深入理解RPL生物学机制、指导制定针对性治疗策略提供了新思路,为未来开发决策支持工具奠定了基础。

  
怀孕,对许多家庭而言是充满期待和喜悦的旅程。然而,对于约1%-5%的育龄女性来说,这段旅程会因“复发性流产”(Recurrent Pregnancy Loss, RPL)而反复中断,带来沉重的心理和生理负担。根据欧洲人类生殖与胚胎学会(ESHRE)的定义,RPL指连续发生2次或以上的妊娠24周前的妊娠丢失。更令人困扰的是,大约50%的病例无法找到明确的病因,被归为“不明原因复发性流产”(uRPL),这给临床诊断和治疗带来了巨大挑战。长期以来,RPL被认为与遗传、子宫解剖异常、内分泌紊乱、免疫系统失调及环境生活方式等多种因素交织相关。其中,免疫因素日益受到重视,例如T辅助细胞1(Th1)与Th2比例失衡、自然杀伤(NK)细胞活性异常、多种自身抗体(如抗磷脂抗体、抗甲状腺抗体等)的出现,都可能破坏母胎界面的免疫耐受,导致妊娠失败。与此同时,肥胖、吸烟、饮酒等可改变的生活方式因素也被证实会加剧全身性炎症和氧化应激,进一步扰乱生殖内环境。然而,在临床实践中,如何将这些分散的、多层面的风险因素整合起来,系统性地评估个体风险,并早期识别出存在特定免疫-生活方式问题的患者,以便进行精准干预,仍是一个亟待解决的难题。传统的统计方法在处理如此多变量、非线性交互作用的复杂生物医学数据时往往力不从心。于是,研究人员将目光投向了能够从海量数据中挖掘深层模式的人工智能(AI),特别是深度学习技术。
为此,一项发表在《Scientific Reports》上的研究开展了一项大规模探索性回顾性研究。研究人员的目标是,利用一种名为TabNet的深度学习模型,基于临床和实验室检查结果,在RPL患者中识别出一种特定的“免疫-生活方式”模式,从而为风险分层和个性化治疗提供科学依据。这项研究汇集了来自伊朗五家生育中心、跨度近十年(2014年12月至2024年4月)的庞大数据,最终纳入了16,818名RPL患者和19,979名健康女性的记录,总计超过3.6万个数据点。研究团队精心筛选了22个关键变量,涵盖了人口统计学特征(年龄、身体质量指数BMI)、生化指标(维生素D3、促甲状腺激素TSH)、免疫学检测(如Th1/Th2比值、T细胞CD3、B细胞CD19、辅助性T细胞CD3/CD4、细胞毒性T细胞CD3/CD8、自然杀伤细胞CD16/56等)以及自身抗体谱(如抗磷脂抗体aPL、抗核抗体ANA、抗双链DNA抗体anti-ds-DNA、抗甲状腺过氧化物酶抗体anti-TPO等)和生活方式因素(吸烟、饮酒)。
关键研究方法:
本研究采用回顾性队列设计,数据来源于伊朗多家生育中心。核心技术方法是应用TabNet深度学习模型对预处理后的多变量临床数据进行模式识别。研究的关键环节包括:1. 严格的队列定义与数据清洗:依据国际指南制定纳入排除标准,构建RPL患者组与健康对照组;对缺失的实验室数据采用特定标记值(-1)处理,而非传统插补法,以保留数据原始结构。2. 模型构建与训练:使用TabNet架构,其注意力机制适合处理表格化临床数据并能提供特征重要性解读;将数据按9:1随机分为训练集和验证集进行模型开发与内部验证。3. 全面的性能与稳健性评估:通过混淆矩阵、受试者工作特征曲线(ROC)、校准曲线、精度-召回曲线及重复5折交叉验证等多种指标评估模型性能,并进行了过拟合、特征泄漏和缺失数据处理策略的专项测试。
研究结果:
基线特征与回归分析:
研究人群包括RPL患者和健康对照,其基线特征在多数指标上存在显著差异。单变量和多变量逻辑回归分析显示,除饮酒、吸烟、维生素D3和TSH外,大多数检查变量都是预测RPL的显著独立因素。
TabNet模型性能:
所构建的TabNet模型在识别免疫-生活方式模式上表现出色。在验证集上,模型的曲线下面积(AUC)高达0.985,准确率为0.946,精确度为0.936,特异性为0.921,灵敏度为0.968。混淆矩阵显示高真假阳性和低假阳/阴性计数。训练集和验证集的ROC曲线高度重合,校准图显示预测概率与观测频率紧密对齐,重复交叉验证证实了模型的稳健性和低过拟合风险。
过拟合、特征泄漏与缺失值评估:
通过重复交叉验证、标签置换检验、早期停止及随机种子固定等多种策略,证实模型未出现过拟合或特征泄漏。针对缺失值采用标记值(-1)的策略被证明优于完整案例分析,在保持高特异性的同时获得了更好的整体性能。
特征重要性:
模型的特征重要性分析(Lambda图)显示,CD3/CD4(辅助性T细胞)比值和Th1/Th2比值是最有影响力的预测因子。其他重要贡献者包括CD19(B细胞)、BMI、年龄、CD3(总T细胞)及多种自身抗体。这表明免疫标志物和生活方式因素在模型的预测中都扮演着核心角色。一些在传统回归分析中显著的变量(如CD16、部分自身抗体)在模型中的重要性排名较低,这凸显了深度学习模型捕捉变量间复杂、非线性交互作用的能力与传统统计方法的差异。
特征相关性分析:
变量间的相关性矩阵显示,淋巴细胞亚群(如CD3、CD3/CD4、CD3/CD8、CD19、CD16/56)内部存在强正相关,体现了免疫细胞的共调控关系。Th1/Th2比值与多个CD标记呈中度负相关。自身抗体标记之间呈弱到中度正相关。而年龄、BMI、吸烟、饮酒等生活方式因素与免疫学、血清学标记的相关性很弱,表明这些因素对模型提供的信息相对独立,多重共线性问题不显著。
研究结论与讨论:
本研究首次利用TabNet深度学习模型,基于22个特定参数,在一个大型RPL患者和健康人群队列中成功识别出一种高准确性的“免疫-生活方式”模式。模型的高性能(AUC 0.985)具有生物学合理性,因为它聚焦于识别一个近端的、由多种因素交织形成的生物学/行为学特征谱,而非直接预测远端的、复杂的妊娠结局本身。这为临床提供了一个全新的、多变量的评估视角,将传统上分散关注的单个参数整合为一个综合的风险特征。
与既往研究相比,本模型的优势在于其大样本量、高预测性能以及将可改变的生活方式因素与免疫参数在统一框架下进行量化整合的创新性。模型特征重要性揭示了免疫-代谢之间的相互作用:例如,高BMI和吸烟可能通过加剧代谢性炎症,促进Th1优势免疫反应,从而破坏母胎免疫耐受。这为将生活方式干预(如减重、戒烟)与靶向免疫调节相结合的治疗策略提供了理论依据。
从临床转化价值看,该模型能够利用常规实验室数据生成一个复合的免疫-代谢“指纹”,有助于在孕前识别高风险女性,实现早期个体化咨询和针对性干预。模型设计注重实用性和可解释性,提供了特征归因和风险概率,并计划开发简单的网页界面,方便临床医生使用,有望辅助临床决策。
当然,研究也存在局限性。数据来源于单一国家,仅进行了内部验证,未来需要多中心外部验证以提高普适性。模型中使用的部分免疫学标志物尚未被纳入国际指南,其临床应用价值需进一步前瞻性研究证实。此外,模型目前尚不能区分体液免疫、细胞免疫或混合型免疫表型。
总之,这项研究构建了一个基于深度学习的高性能预测模型,能够从多变量数据中识别出RPL患者特异的免疫-生活方式风险特征。这不仅深化了我们对RPL复杂病因的理解,更重要的是为未来开发AI辅助的生殖免疫学风险分层与决策支持工具奠定了坚实基础,朝着实现RPL的精准预防与管理迈出了重要一步。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号