慢性炎症多组学图谱：解码免疫相关疾病共性机制及其长期死亡风险预测

【字体：大中小】 时间：2026年02月13日 来源：Frontiers in Immunology 5.9

编辑推荐：

　　本研究整合了英国生物样本库（UK Biobank）的临床、炎症标志物、核磁共振（NMR）代谢组学和Olink蛋白组学数据，构建了多模态深度学习模型和风险评分，系统揭示了慢性炎症背景下免疫与代谢网络的共有及疾病特异性模式，并将其与长期、病因特异性死亡风险成功关联，为基于机制的精准风险分层提供了定量框架。

1 引言

免疫相关慢性疾病，包括癌症、自身免疫性疾病、易感染性疾病和代谢性疾病，在全球老龄化社会中导致的发病率和过早死亡率日益增长。这些疾病在患者层面常以共病形式聚集，由肥胖、生活方式暴露和社会剥夺等因素驱动，给医疗系统带来沉重负担。目前，大型人群队列研究和机制研究均将慢性低度炎症、脂质和能量代谢失调以及持续的免疫激活视作这些疾病的共同生物学基础。近年来，高通量血浆蛋白组学和代谢组学图谱进一步表明，协调的炎症和代谢特征可以预测广泛的未来疾病事件和全因死亡率，且预测时间往往早于临床诊断数年。然而，这些系统性特征如何映射到普通人群中临床可识别的免疫相关疾病状态集群，仍未完全阐明。

尽管人群规模的组学分析进展迅速，但现有工作大多聚焦于预测单个终点，例如心血管疾病、2型糖尿病、痴呆或全因死亡率，而非描绘更广泛的免疫相关共病图景。同时，多组学机器学习模型虽已开始结合临床数据与代谢物、蛋白质或表观遗传标记，但大多采用早期融合或汇总评分，很少实施明确的多任务、多类别架构或尊重不同数据块结构的堆叠集成。此外，很少有研究将此类机器学习衍生的风险特征纳入竞争风险框架，以阐明基于组学定义的风险如何在人群水平上转化为病因特异性死亡模式。

在此背景下，本研究利用英国生物样本库（UK Biobank），探究了基线临床特征、炎症与血液学标志物、基于核磁共振（NMR）的代谢物和基于Olink衍生的蛋白质如何共同定义一系列免疫相关慢性疾病状态及其下游死亡模式。我们将参与者分为六个互斥的基线组（癌症、自身免疫性疾病、感染性疾病、代谢性疾病、多种共病和健康对照），然后应用多塔式深度学习模型和堆叠集成方法，为“任何慢性疾病”以及多类别疾病状态得出综合的、数据驱动的风险评分。这些机器学习衍生的风险特征随后被嵌入到Fine-Gray竞争风险模型中，以量化它们与病因特异性死亡率的关联，同时纳入传统风险因素。

2 材料与方法

2.1 研究设计与数据来源

本研究采用横断面和前瞻性设计，旨在探讨与健康对照相比，免疫相关疾病状态在基线临床特征、炎症/血液学标志物、代谢组学（NMR）和蛋白组学（Olink）方面的差异。参与者使用基线前记录的ICD-10代码被分为六个互斥的疾病组。我们定义了四个单一疾病类别（癌症、自身免疫性疾病[AD]、感染性疾病[ID]和代谢性疾病[MD]）。如果参与者符合其中≥2个类别的标准，则被分配到“多种”组；否则，他们被分配到相应的单一疾病组。不符合任何四个疾病类别标准的参与者被分配到对照组。

2.2 研究变量

研究变量包括基线临床特征、炎症/血液学标志物、代谢组学数据、蛋白组学数据和生存结局。临床变量包括年龄、性别、种族、教育水平、吸烟状况、饮酒状况、睡眠时长、体力活动水平和身体质量指数（BMI）。炎症/血液学标志物包括白细胞计数（WBC）、红细胞比容（HTC）、血小板计数（PLT）、红细胞分布宽度（RDW）、血红蛋白浓度（Hb）、C反应蛋白（CRP）等。代谢组学数据源自基于NMR的代谢谱分析，分析了251种代谢物，所有数据均进行了标准化。NMR代谢组学数据进一步分为16个官方通路和7个更广泛的超级通路。蛋白组学数据使用Olink平台获得，涵盖超过2,900种蛋白质，这些数据也进行了标准化分析。Olink蛋白组学测量直接映射到相应的基因数据，为后续基因功能和通路分析提供了坚实基础。研究结局包括总生存状态、死亡时间和死亡原因。

2.3 疾病组比较

为评估六个疾病组之间的差异，采用了多种统计和可视化方法。对于连续变量，使用Kruskal-Wallis检验识别组间显著差异，随后使用Mann-Whitney U检验进行配对比较。对于分类变量，应用Pearson卡方检验。此外，利用热图展示疾病组间临床、炎症和组学标志物的表达模式；使用气泡图进行基因本体（GO）富集分析；采用火山图可视化疾病状态间代谢和蛋白差异的幅度和显著性；生成桑基图说明疾病组、特定蛋白质及其相关生物通路之间的关系；构建蛋白质-蛋白质相互作用网络；最后，在特征层面进行K均值聚类（K=6），以对具有相似标准化谱的代谢物或蛋白质进行分组。主成分分析（PCA）和均匀流形近似与投影（UMAP）仅用于低维可视化，以说明聚类特征。

2.4 机器学习与深度学习模型

为评估基线临床特征、炎症/血液学指标、基于NMR的代谢组学和Olink蛋白组学对六种疾病状态的预测价值，我们主要使用了多类别深度学习模型。指定了四种架构：模型1是仅使用临床和炎症变量的单塔全连接网络。模型2和3采用双塔结构，其中一个塔编码临床/炎症变量，另一个塔编码NMR代谢物或Olink蛋白质。模型4是一个三塔网络，结合了临床/炎症、NMR和蛋白组学表征。每个塔由具有线性整流单元激活、L₂正则化、批量归一化和dropout的密集层组成，然后是一个共享的全连接块和一个用于六种疾病类别的6节点softmax输出层。

为减轻类别不平衡，在分类交叉熵损失中应用了逆频率类别权重，并在验证数据上调整了类别特定的决策阈值。所有模型均使用Adam优化器在10折分层交叉验证中进行训练，并存储了折外预测概率。然后，将这些概率作为元特征，在多项式逻辑回归元学习器中构建堆叠集成，从而得到最终的类别概率和用于“任何慢性疾病”的连续机器学习衍生风险评分。模型性能通过准确率、宏平均F1分数、多类别受试者工作特征曲线下面积以及类别特异性的敏感性和特异性进行总结。为增强可解释性，在每个数据层内拟合了替代梯度提升模型，并使用基于沙普利值（Shapley Value）的重要性指标对临床、代谢组和蛋白组特征进行排序。

2.5 Fine-Gray竞争风险模型

为量化疾病组间和机器学习衍生风险层级的病因特异性死亡风险，我们使用了Fine-Gray竞争风险框架。首先估计了整体队列和每个基线疾病组内每类死亡的病因特异性累积发病率函数。随后，分别为每类死因拟合Fine-Gray亚分布风险模型，将其它死因视为竞争事件。传统风险因素包括年龄、性别、身体质量指数、吸烟状况和汤森剥夺指数。此外，将来自临床/炎症模型、NMR模型和Olink模型的标准化机器学习衍生风险评分作为连续协变量纳入，以捕捉多组学信息的聚合贡献。报告了每个协变量的亚分布风险比及其95%置信区间，并通过评估区分度、校准度和决策分析净收益来进一步检查模型性能。

2.6 模型识别免疫介质的体外生物学验证

为使模型识别的免疫通讯信号获得生物学依据，我们进行了体外验证，重点关注堆叠模型可解释性分析强调的四个代表性介质：GDF15、BAFF（TNFSF13B）、IL-15和髓系表面检查点CD276。使用密度梯度离心法从健康供体中分离外周血单个核细胞，并在标准条件下培养。用典型的炎症和极化信号刺激细胞，以模拟与慢性炎症和免疫细胞通讯相关的不同免疫激活状态。收集培养上清液，用于基于酶联免疫吸附测定的BAFF、GDF15和IL-15定量；同时收集匹配的细胞沉淀，用于RNA提取和TNFSF13B、GDF15、IL15及CD276转录本定量。并行地，通过流式细胞术评估CD45⁺CD14⁺单核细胞内的表面CD276表达。

3 结果

3.1 基线特征

分析了六个疾病组参与者的基线特征。人口统计学分布显示各组在年龄、性别和其他健康指标方面存在显著差异。癌症、代谢性疾病和多种疾病组的平均年龄较高，约为60±7岁，而对照组和感染性疾病组的平均年龄约为56±8岁。性别方面，癌症和自身免疫性疾病组的女性比例较高，而代谢性疾病组的男性比例较高。汤森剥夺指数显示，代谢性疾病组的社会剥夺程度相对较高。吸烟状况显示，癌症和多种疾病组目前吸烟者的比例较高。饮酒状况显示，对照组的当前饮酒者比例最低。体力活动水平在各组间也存在显著差异，代谢性疾病组低体力活动者比例最高。身体质量指数在代谢性疾病组最高，反映了较高的肥胖水平。

3.2 炎症与血液学标志物比较

热图显示，癌症组的C反应蛋白和白细胞计数水平显著升高，表明炎症状态加剧，而代谢性疾病和多种疾病组的这些标志物水平较低。自身免疫性疾病组的某些炎症标志物，特别是C反应蛋白，水平也升高。火山图强调了这些标志物的差异调节。雨云图和箱线图揭示了15种炎症和血液学标志物在各组间的分布差异，癌症和自身免疫性疾病组在多个标志物上表现出最高的变异性。

3.3 疾病组间NMR代谢物差异

热图描绘了英国生物样本库数据集中251种代谢物在16个官方通路中的分布。癌症组在脂肪酸和甘油三酯等通路中的代谢物水平显著较高。自身免疫性疾病组在脂质相关通路，特别是磷脂和总脂质方面表现出严重异常。气泡图显示，癌症和自身免疫性疾病组在脂肪酸和甘油三酯通路中显著富集。K均值聚类分析将代谢物分为六个簇，癌症和多种疾病组主要占据簇1和簇6，而自身免疫性疾病和感染性疾病组更集中在簇2和簇4。

3.4 Olink蛋白组学差异分析

热图显示了五个疾病组与对照组之间前80个差异蛋白质的表达差异。在癌症组，涉及免疫反应、细胞粘附和炎症的几种蛋白质显著上调。自身免疫性疾病组显示出特定炎症标志物的升高。基因本体富集分析气泡图显示，与这些差异蛋白质相关的基因功能富集。桑基图显示了疾病组、差异蛋白质和相关通路之间的关系。蛋白质-蛋白质相互作用网络揭示了自身免疫性疾病和癌症相关蛋白质之间的强相互作用。K均值聚类分析进一步对差异蛋白质进行了分组。主成分分析和均匀流形近似与投影用于可视化聚类特征。堆积分布百分比图显示了每个疾病组在不同蛋白质簇中的分布。

3.5 多组学深度学习与堆叠集成模型

构建了五个基于深度学习的模型进行比较。模型性能显示，仅基于临床和炎症变量的模型提供了基本水平的区分能力。添加核磁共振或Olink数据后，整体性能显著提升。三塔多组学模型表现稍不稳定，可能是由于需要完整多组学数据导致样本量减少。相比之下，堆叠模型在所有配置中实现了最佳的准确率、宏平均F1分数和多类别受试者工作特征曲线下面积，表明在元学习层面整合异质信息能有效结合临床、代谢和蛋白信号。

堆叠模型的类别特异性受试者工作特征曲线显示，对于代谢性疾病和多种疾病组，其性能优于基线模型。混淆矩阵显示大多数个体被正确分类。精准召回曲线和校准分析表明，堆叠模型在中等至高风险范围内保持了良好的精准率和召回率。沙普利值分析识别了风险评分的前50个贡献特征，包括年龄、身体质量指数、C反应蛋白、多种脂蛋白和脂质相关的核磁共振代谢物，以及如GDF15、CD276和TNFSF13B等蛋白质。

3.6 Fine-Gray模型与机器学习衍生风险评分

在整体队列中，癌症相关死亡的累积发病率在随访早期迅速上升，并在整个期间保持最高。在仅包含传统风险因素的Fine-Gray模型中，年龄、吸烟和较高的社会剥夺与几种死因的亚分布风险增加相关。将来自深度学习模型的标准化多疾病风险评分作为复合协变量纳入后，结果显示，从风险评分的第一个五分位数到第五个五分位数，癌症和其他原因死亡的比例单调增加。延伸的Fine-Gray模型显示，所有三个机器学习风险评分均与多种死因存在稳健的正向关联，亚分布风险比主要在1.3至1.8之间。

3.7 模型识别介质的实验验证

体外刺激实验显示，基于脂多糖（LPS）的刺激最一致地诱导了所有三种分泌介质。定量聚合酶链式反应测量显示，在脂多糖和脂多糖+干扰素-γ刺激下，TNFSF13B、GDF15和IL15转录本显著增加。流式细胞术显示，脂多糖暴露后，CD45⁺CD14⁺单核细胞中CD276表面表达增加。

4 讨论

本研究揭示了系统性炎症、脂质和氨基酸代谢以及免疫相关蛋白信号共同塑造了疾病特异性和共有的模式。多塔式深度学习和堆叠框架展示了如何高效融合临床、核磁共振和蛋白组信息以改进多疾病分类。机器学习衍生的风险评分将横断面疾病分类延伸至病因特异性死亡率的纵向框架，这些关联在调整传统风险因素后依然稳健。体外生物学验证层面对模型优先考虑的介质进行了实验证实，支持了基于计算的模型与免疫细胞通讯生物学之间的证据桥梁。

5 结论

本研究通过整合多组学深度学习和竞争风险建模，解码了系统性炎症、代谢和蛋白组特征如何在癌症、自身免疫、感染和代谢性疾病中共同组织。通过在多塔式网络和堆叠集成中整合临床与血液学指标、核磁共振代谢物和Olink免疫相关蛋白，我们得出了机器学习风险评分，这些评分捕捉了疾病状态间慢性炎症和免疫通讯的共同轴。这些评分与传统风险因素之外，与癌症相关和其他病因特异性死亡率强相关且独立。重要的是，我们通过体外生物学验证补充了人群规模的计算，支持了模型强调介质在髓系炎症中的可诱导性。我们的研究结果勾勒出了一幅慢性免疫-代谢通讯的人群规模图谱，将疾病聚类与长期结局联系起来，并可能指导未来以机制为导向的精准免疫调节策略。

热点排行