利用血浆蛋白质组学技术,提高对无糖尿病人群外周动脉疾病的预测准确性
《Journal of the American Heart Association》:Enhanced Prediction of Peripheral Artery Disease Using Plasma Proteomics Among Individuals Without Diabetes
【字体:
大
中
小
】
时间:2026年05月07日
来源:Journal of the American Heart Association 6.1
编辑推荐:
**摘要**
**背景**
尽管外周动脉疾病(PAD)是糖尿病的重要并发症,但相当一部分病例发生在没有糖尿病的人群中。本研究旨在评估血浆蛋白质组学在预测初始无糖尿病人群长期PAD风险方面的价值。
**方法**
研究纳入了46,508名参与者(其中6,046人为糖尿病前
**摘要**
**背景**
尽管外周动脉疾病(PAD)是糖尿病的重要并发症,但相当一部分病例发生在没有糖尿病的人群中。本研究旨在评估血浆蛋白质组学在预测初始无糖尿病人群长期PAD风险方面的价值。
**方法**
研究纳入了46,508名参与者(其中6,046人为糖尿病前期),他们在加入英国生物银行(UK Biobank)时既没有糖尿病也没有主要的心血管疾病。通过多变量Cox回归模型,共分析了2,923种独特的血浆蛋白质与PAD发生之间的关联。随后利用经过训练的光梯度提升机(light gradient boosting machine, LGBM)分类器对这些蛋白质进行了处理,以确定重要的蛋白质。通过接收者操作特征分析(receiver operating characteristic analysis)评估了这些重要蛋白质在预测PAD方面的表现,包括在整个样本中以及按血糖状态(正常血糖和糖尿病前期)进行评估。
**结果**
在中位随访时间为12.7年的情况下,有461名参与者发生了PAD。共有107种蛋白质与PAD的发生有关,其中103种呈正相关。LGBM方法识别出9种最重要的蛋白质(例如WFDC2 [WAP 4-二硫键核心结构域蛋白2]、MMP12 [巨噬细胞金属弹性蛋白酶] 和 GDF15 [生长分化因子15])。虽然糖化血红蛋白(glycated hemoglobin)的预测准确性较低,但包含这些重要蛋白质的模型在预测PAD风险方面表现良好(曲线下面积为0.820),并且显著提高了预测效果(将曲线下面积从0.803提高到0.837,DeLong检验P=5.21×10^-3)。这些观察结果在正常血糖和糖尿病前期参与者中均一致。
**结论**
无论血糖状态如何,血浆蛋白质生物标志物都能提高对无糖尿病人群长期PAD风险的预测能力。
**非标准缩写和缩写词**
GDF15:生长分化因子15
MMP12:巨噬细胞金属弹性蛋白酶
UKB:英国生物银行(UK Biobank)
WFDC2:WAP 4-二硫键核心结构域蛋白2
**临床视角**
**有何新发现?**
• 在这项针对无糖尿病人群的大规模血浆蛋白质组学研究中,107种血浆蛋白质与PAD的发生独立相关,涉及重要的炎症和免疫相关途径。
• 光梯度提升机方法确定了9种最重要的蛋白质,这些血浆蛋白质生物标志物能够提高对无糖尿病人群长期PAD风险的预测能力,无论其血糖状态如何。
**临床意义是什么?**
• 识别出的蛋白质组合可能有助于早期识别高风险个体,并更好地预测PAD风险,特别是对于那些不经常接受PAD筛查的无糖尿病人群。
**外周动脉疾病(PAD)**
1. PAD是一种主要的血管疾病,其特征是下肢动脉的动脉粥样硬化性阻塞。
2. 无论是否存在症状,PAD都与更高的心血管发病率和死亡率相关,这构成了一个重大的公共卫生问题。
3. PAD是一种复杂的疾病,具有多种病理生理途径,已知的传统风险因素无法完全解释其中的大部分剩余风险。
4. 因此,准确识别新的分子标志物对于更好地预测PAD风险和理解其发病机制非常重要。
5. 蛋白质组学技术的迅速发展显著加速了新疾病生物标志物的发现。
6. 最近的蛋白质组学研究表明,包含蛋白质生物标志物的模型在预测多种健康结果(如心血管疾病、糖尿病等)方面表现更为优越。
PAD是糖尿病的主要大血管并发症之一,最近的一项研究证实了血浆蛋白质组学在预测2型糖尿病患者PAD风险方面的实用性。然而,相当一部分PAD病例发生在无糖尿病的人群中,而且研究表明基于蛋白质的疾病风险预测可能受到血糖状态的影响。目前,血浆蛋白质在预测无糖尿病人群长期PAD风险方面的价值仍不明确,尤其是对于那些不太可能定期接受PAD筛查的正常血糖人群。
**为了填补这些知识空白,我们对无糖尿病人群进行了系列分析,使用了来自UKB-PPP(英国生物银行药物蛋白质组学项目,UK Biobank Pharma Proteomics Project)的数据,该项目在超过50,000名参与者中测量了2,941种血浆蛋白质。首先,我们进行了全蛋白质组关联分析以识别PAD发生的血浆蛋白质生物标志物;其次,确定了与PAD相关的蛋白质在风险预测中的相对重要性;最后,评估了排名前三的蛋白质在整个研究样本以及按血糖状态(正常血糖和糖尿病前期)的预测性能。**
**数据支持**
支持本研究发现的数据可通过联系英国生物银行网站(www.ukbiobank.ac.uk/)获取。
**研究人群**
英国生物银行(UKB)是一个基于人群的前瞻性队列研究,从英格兰、苏格兰和威尔士的22个评估中心招募了超过500,000名年龄在37至73岁之间的参与者。2006年至2010年间,参与者完成了各种问卷调查,接受了多种身体检查,并提供了生物样本。该研究获得了西北多中心研究伦理委员会(Northwest Multi-Centre Research Ethics Committee)的批准(英国生物银行项目批准编号11/NW/0382),所有参与者均提供了书面知情同意书。UKB-PPP是由13家生物制药公司组成的预竞争联盟,资助生成一部分UKB参与者的血液基础蛋白质组学数据。在我们的研究中,从UKB的502,411名参与者中随机选择了53,026名参与者,其中包含基线时收集的血浆样本中测量的2,941种蛋白质分析物(共2,923种独特蛋白质)。排除了基线时有糖尿病、PAD或其他主要心血管疾病的参与者(n=6,518人),剩下46,508名参与者用于本次分析。其中6,046人为糖尿病前期(糖化血红蛋白[HbA1c]≤39 mmol/mol),40,462人为正常血糖(HbA1c<39 mmol/mol)。
**血浆蛋白质组学的测量**
UKB-PPP研究参与者捐赠的基线血液样本使用Olink Explore 3072平台进行了蛋白质组学分析,该平台量化了8个检测板(心血管代谢、心血管代谢II、炎症、炎症II、神经学、神经学II、肿瘤学和肿瘤学II)中的2,941种蛋白质分析物(共2,923种独特蛋白质)。关于样本收集、血浆样本制备、使用Olink技术的血浆分析以及质量控制的详细信息在其他文献中有描述。有830种蛋白质的数据低于最低检测水平或超过50%的数据未通过质量控制,因此被排除在分析之外。对于其余的2,093种蛋白质,缺失值用最低检测值的一半进行了插补。数据随后通过基于排序的逆向正态变换进行了标准化处理,并通过Z分数标准化以确保蛋白质间的可比性和标准化。
**PAD事件的确定**
随访期间PAD事件是通过连接的医院和死亡数据库确定的。医院入院日期和原因通过与英格兰和威尔士的健康事件统计数据及苏格兰的发病率记录进行匹配。死亡日期和原因来自国家医疗服务信息中心(英格兰和威尔士)和苏格兰的国家医疗服务中央登记处(Scotland)。PAD的定义基于国际疾病分类第9版(ICD-9)代码、第10版(ICD-10)代码以及人口普查和调查办公室干预和程序分类第4版代码。这些代码的完整列表见表S1。
**协变量**
使用基于触摸屏的问卷收集了社会人口统计特征、生活方式因素、医疗历史和药物使用情况的信息。Townsend贫困指数用于衡量地区贫困程度,分数越高表示社会贫困程度越高。体力活动通过自我报告的简式国际体力活动问卷进行评估。健康饮食分数根据以下6类食物计算:蔬菜和水果、红肉、加工肉类、全谷物、精制谷物和鱼类。血压使用Omron HEM-7015IT数字血压计测量,并取两次坐姿测量的平均值。总胆固醇使用Beckman Coulter AU580测量。HbA1c检测采用高效液相色谱法(Bio-Rad Variant II Turbo analyzer,Bio-Rad Laboratories)。糖尿病的定义基于自我报告的医生诊断、药物使用或HbA1c≥48 mmol/mol。
**统计分析**
**研究人群的基线特征**
根据PAD的发生情况,以平均值±标准差或频率百分比的形式展示了参与者的基线特征。
**蛋白质组学关联分析**
使用多变量Cox比例风险回归模型估计了个体血浆蛋白质与PAD发生之间的风险比(HR)和95%置信区间(CI)。随访期从基线招募日期计算到PAD诊断日期、死亡日期或批准数据集的最新随访日期(2021年12月),以先发生者为准。多变量模型调整了年龄、性别、种族/民族、Townsend贫困指数、体重指数、腰围、烟草消费、酒精消费、总体力活动、健康饮食分数、收缩压、总胆固醇、HbA1c以及抗高血压或降脂药物的使用情况。连续变量的缺失数据使用性别特定的中值处理,分类变量使用缺失指示符类别处理。连续变量的缺失率通常较低,大多数变量的缺失比例低于5%,除了HbA1c(5.42%)、收缩压(6.18%)和体力活动(19.41%)。为了描述缺失数据模式,使用逻辑回归将缺失指标与观察到的基线参与者特征和结果信息进行了建模。结果表明,缺失数据模式不太可能是完全随机缺失的,更符合随机缺失机制(见表S2)。为了评估简单缺失数据处理对主要分析的潜在影响,将样本限制为所有连续变量数据完整的参与者,并重复了主要分析。应用Bonferroni校正来评估显著关联(P<0.05),同时考虑了测试的蛋白质数量(k=2,093)。
**途径富集分析**
为了深入了解这些重要蛋白质的潜在生物学途径,我们使用R包中的clusterProfiler进行了系统性的富集分析,包括基因本体论(Gene Ontology)、京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes)和Reactome途径分析。统计显著性以Fisher精确检验的P值表示,随后通过Benjamini-Hochberg程序进行了假发现率校正。
**蛋白质重要性的排名**
PAD相关蛋白质在PAD风险预测中的相对重要性主要通过两个步骤确定:候选蛋白质排名和顺序正向选择。第一步,将从关联分析中识别的显著蛋白质输入到一个初步训练的光梯度提升机分类器中,根据信息增益对每个蛋白质进行排名,这可以视为预测因子识别未来PAD的能力。之后,应用顺序正向选择策略,根据预测因子的重要性逐个将预测因子添加到新开发的光梯度提升机分类器中。这个迭代过程持续进行,直到达到最佳的曲线下面积(AUC)性能,即当添加额外预测因子未能显著改善模型性能时停止(通过连续两次DeLong检验判断)。
**模型在预测PAD方面的性能评估**
随后,我们使用排名前三的蛋白质构建了不同的预测模型,包括(1)单一重要蛋白质、(2)传统风险因素、(3)HbA1c、(4)包含所有重要蛋白质的蛋白质组,以及(5)蛋白质组+传统风险因素。传统风险因素包括上述多变量模型中包含的所有协变量。HbA1c是一个公认的临床指标,用于评估葡萄糖代谢,广泛用于指导糖尿病管理和间接评估血管风险。将HbA1c作为独立模型可以使我们直接比较蛋白质组与临床实践中常规测量的标志物的预测性能。通过接收者操作特征分析评估了模型的PAD预测性能。采用DeLong检验和2000次迭代的自助法(bootstrap test)比较不同模型之间的AUC值是否存在显著差异。数据根据参与者招募中心的地理位置(东米德兰兹、伦敦、东北部、西北部、苏格兰、东南部、西南部、威尔士、西米德兰兹和约克郡及亨伯)分为10组。模型使用10折交叉验证策略进行开发和验证,其中验证集(1折数据)保持不变,仅用于评估目的,超参数调整和后校准在训练集内的循环交叉验证中完成(9折数据)。这个过程重复了10次,每次迭代都会改变分组,以分别作为训练集和测试集。此外,使用双样本t检验评估了血糖正常者和糖尿病前期个体中排名最高的蛋白质表达水平的差异。为了评估所构建的基于蛋白质的预测模型的普遍性和其预测准确性的稳健性,我们根据血糖状态(血糖正常和糖尿病前期)重新进行了接受者操作特征分析。所有统计测试均使用Python(版本3.9)和R软件(版本4.4.2,R Development Core Team)进行。除非另有说明,否则统计显著性设置为0.05(双尾)。MMP12是一种由免疫活性细胞分泌的、依赖于锌的基质金属蛋白酶,具有蛋白水解作用。它与多种动脉粥样硬化相关的心血管疾病有关,例如颈动脉内膜-中膜厚度增加(28, 29)、冠状动脉事件(30)以及大动脉粥样硬化性中风(31)。瑞典队列研究的结果表明,MMP12水平较高与普通人群中PAD(外周动脉疾病)的风险增加相关(21)。GDF15属于转录生长因子家族,参与细胞凋亡和炎症过程,在PAD患者和非PAD患者中的表达存在差异(32)。GDF15水平升高同样与普通人群及糖尿病患者中PAD风险增加相关(21, 33)。HbA1c通常被用作糖尿病管理和预后的临床指标。然而,鉴于PAD发病机制的多因素性质以及临床表现的多样性(34),单一生物标志物很难达到最高的预测准确性。在本研究中,对于无糖尿病的个体,HbA1c在预测PAD风险方面的能力有限,这突显了发现其他生物标志物的必要性,结合表型和临床特征以改善早期风险筛查和疾病预防(32)。在我们的研究中,一组排名靠前的蛋白质在预测新发PAD方面表现良好,并显著提升了风险区分能力,超越了HbA1c和其他传统风险因素。我们进一步发现,该蛋白质组合在正常血糖组和糖尿病前期组中的预测效果相似。在先前对354名接受外周或冠状动脉造影患者的蛋白质组学分析中,一组蛋白质在预测不同程度HbA1c患者的阻塞性PAD方面表现相似(35)。本研究使用了更大的样本量和更多的蛋白质生物标志物,将先前的知识扩展到了正常血糖或糖尿病前期人群。这项大规模、基于机器学习的蛋白质组学研究对于公共卫生和临床实践具有重要意义。选定的顶级蛋白质生物标志物可能为PAD的病理机制提供新的见解,这些机制与葡萄糖代谢无关。该蛋白质组合有助于早期识别高风险个体,并更好地预测PAD风险,特别是对于那些不定期接受PAD筛查的无糖尿病患者。我们的研究得益于较大的样本量、长期随访和高通量的蛋白质组学分析,尽管也存在一些潜在的局限性。尽管UKB-PPP平台能够全面评估血浆蛋白质,但仍有部分蛋白质无法被检测到。此外,缺乏独立的外部队列数据来进行大规模蛋白质组学验证。在本研究中,我们实施了严格的10倍交叉验证策略,并在预定义的亚组(正常血糖和糖尿病前期)中确认了模型的性能。这种严格的内部验证被广泛用于确保模型的稳健性和泛化能力(17, 36, 37),这与最近的蛋白质组学生物标志物发现研究一致。此外,UKB的参与者主要为白人欧洲人,我们的发现尚未在其他地区或种族人群中得到验证。
**结论**
总的来说,我们的大规模蛋白质组学分析识别出一组与无糖尿病个体中PAD发生相关的血浆蛋白质,强调了9种关键蛋白质(尤其是WFDC2、MMP12和GDF15)在预测PAD长期风险方面的作用,这些蛋白质的作用超出了传统风险因素(包括血糖水平)的范围。这些发现可能为超出葡萄糖代谢范围的疾病机制提供新的见解。我们的发现也可能有助于普通人群中PAD的早期筛查和针对性预防,尤其是那些不定期接受PAD风险筛查的人群。
**资金来源**
本研究部分得到了姑苏市科技创新和创业领军人才计划(ZXL2023345)以及江苏省高等教育机构优先学术计划的支持。潘博士还获得了宁波科学技术局2035科技创新重大项目(2024Z234)和宁波科学技术发展专项资金2023年重点研发计划(2023Z183)的支持。
**致谢**
作者感谢英国生物银行的参与者。本研究使用了编号为90087的英国生物银行资源。本研究使用的数据来自患者,并由国家卫生服务系统在其护理和支持过程中收集。所有使用的软件均为公开可用的。本研究使用的代码可在https://github.com/MMYBBYXY/PAD_Proteomics_Prediction获取。
具体贡献者包括:
- 蒙媛淼:可视化、数据分析、初稿撰写、审稿和编辑
- 刘杰琼:可视化、数据分析、审稿和编辑
- 方菲:数据分析
- 刘中月:数据分析
- 徐淼:撰写、审稿和编辑
- 张鸿军:撰写、审稿和编辑
- 潘兴强:撰写、审稿和编辑
- 秦力强:撰写、审稿和编辑
- 王海鹏:概念化、可视化、撰写、审稿和编辑
- 陈国冲:概念化、监督、可视化、撰写、审稿和编辑
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号