《Nature Aging》:OMICmAge quantifies biological age by integrating multi-omics with electronic medical records
编辑推荐:
研究人员开发了基于电子病历的死亡风险标志物EMRAge,并将其与DNA甲基化和多组学数据整合,构建了DNAmEMRAge与OMICmAge两种新型生物年龄指标。这两种指标在与慢性疾病发病率和死亡率的关联性验证中表现出色,其性能与现有标志物相当或更优。这一研究通过将多组学信息整合到单一的DNA甲基化算法中,提供了一个可扩展且易于获取的生物年龄量化框架,有望揭示影响健康寿命与疾病风险的分子网络。
我们常常好奇,为什么有些人年纪轻轻就疾病缠身,而另一些人年事已高却依旧精神矍铄?这背后,生物年龄——反映我们身体实际“磨损”程度的指标——可能比身份证上的年龄更能说明问题。近年来,科学家们已经开发出多种“衰老时钟”来估算生物年龄,例如基于DNA甲基化(DNA methylation, DNAm)的Horvath时钟、PhenoAge和GrimAge。然而,这些标志物大多依赖单一类型的数据(如临床指标或分子标记),往往难以全面捕捉衰老的复杂性。此外,如何在临床实践中便捷、大规模地应用这些生物年龄指标,并深入理解其背后的生物学机制,仍是巨大的挑战。
发表在《Nature Aging》上的这项研究,正是为了应对这些挑战而生。研究团队提出了一种创新的框架,旨在开发一个既能广泛适用于临床电子病历系统,又能整合多组学信息以揭示生物学机制的生物年龄指标。为此,他们首先利用马萨诸塞州总医院布里格姆生物银行(Massachusetts General Brigham Biobank)中约31,000名参与者的常规临床实验室数据,构建了一个名为EMRAge的生物标志物。EMRAge本质上是一个基于临床数据的死亡风险预测模型,其优势在于能够轻松地在不同的电子病历(Electronic Medical Record, EMR)系统中复现。随后,研究者们进一步利用一个子队列(MGB-ABC, n=3,451)的多组学数据,将EMRAge与DNA甲基化及多组学信息相结合,分别开发了DNAmEMRAge和OMICmAge。其中,OMICmAge尤为关键,它通过表观遗传生物标志物代理(epigenetic biomarker proxies, EBPs),将蛋白质组、代谢组和临床数据的信息“压缩”到一个仅需DNA甲基化数据即可计算的模型中。这一方法巧妙地在保留多维度生物学信息的同时,保持了实际应用的可行性。研究在多个独立队列(TruDiagnostic, n=14,213; Generation Scotland, n=18,672)中对这些新指标进行了验证,结果表明它们与多种慢性疾病的发病、患病以及全因死亡率均显示出强烈关联,其预测性能与现有最佳标志物相当甚至更优。这项工作不仅建立了一个易于获取、可扩展的生物年龄衡量标准,更重要的是,它通过整合多组学层面对衰老过程的观察,为揭示塑造健康寿命和疾病风险的分子间联系提供了强大工具。
本研究主要采用了以下关键技术与方法:1. 临床数据分析与模型构建:从大规模生物银行(MGB Biobank)的电子病历中提取并处理临床变量,使用Cox比例风险模型开发EMRAge。2. 多组学数据整合:对匹配的子队列进行DNA甲基化(使用Illumina Infinium MethylationEPIC 850K BeadChip)、非靶向血浆代谢组学(使用Metabolon平台)和蛋白质组学(使用Seer SP100平台基于液相色谱-质谱联用技术)分析。3. 表观遗传代理建模:通过弹性网络回归(elastic net regression)为筛选出的蛋白质、代谢物和临床变量建立DNA甲基化预测模型,即EBPs。4. 生物年龄预测算法开发:利用弹性网络回归,整合DNA甲基化位点、EBPs、年龄和性别等信息,构建最终的DNAmEMRAge和OMICmAge预测模型。5. 验证与比较:在独立队列(All of Us、TruDiagnostic Biobank、Generation Scotland)中评估新指标的稳健性、与疾病/死亡率的关联,并与现有表观遗传时钟(如PCGrimAge、PCPhenoAge、DunedinPACE)进行比较。
结果
EMRAge的开发与验证
研究从MGB生物银行的临床数据出发,筛选出19个变量来构建EMRAge。该指标与实际年龄高度相关(在测试集中皮尔逊相关系数ρ=0.76),并且在不同的时间点重训练后显示出极佳的重现性(相关性接近1)。在预测未来疾病发生风险(前瞻性分析)和评估现有疾病状态(横断面分析)时,EMRAge均表现出强大的预测能力。例如,在测试集中,EMRAge与全因死亡率的关联风险比(Hazard Ratio, HR)高达4.53。在独立的All of Us队列中验证时,EMRAge同样表现出比PhenoAge和实际年龄更强的疾病与死亡风险关联。
DNAmEMRAge与OMICmAge的开发
基于EMRAge,研究团队利用DNA甲基化数据开发了其表观遗传代理指标DNAmEMRAge。该模型包含1,097个CpG位点,与EMRAge高度一致(训练集ρ=0.91)。更重要的是,他们进一步整合了蛋白质组、代谢组和临床数据的EBPs(共396个特征),开发了多组学整合的生物年龄指标OMICmAge。该模型最终保留了990个CpG位点和40个EBPs。OMICmAge与EMRAge的关联性更强(训练集ρ=0.91),且预测误差(平均绝对误差约4.96年)低于DNAmEMRAge(约8.33年),组内相关系数(ICC)高达0.998,显示出极佳的重复性。
与现有表观遗传衰老生物标志物的比较
研究将新开发的指标与现有的主流表观遗传时钟(如PCGrimAge、PCPhenoAge、DunedinPACE等)进行了全面比较。结果显示,DNAmEMRAge和OMICmAge所使用的CpG位点与先前时钟的重叠度极低,表明它们捕获了独特的衰老信号。在与衰老相关疾病的关联分析中,OMICmAge在多个疾病(如2型糖尿病、心血管疾病)的患病和发病风险预测中,其比值比(Odds Ratio, OR)或风险比(HR)常常是最高的或位居前列。在预测5年和10年生存率的受试者工作特征曲线(Receiver Operating Characteristic curve, ROC curve)分析中,DNAmEMRAge和OMICmAge也展现了优异的性能,其曲线下面积(Area Under the Curve, AUC)值优于或与其他最佳时钟相当。
OMICmAge与生活方式因素的关联
研究还在MGB-ABC和TruDiagnostic Biobank队列中分析了OMICmAge与各种生活方式因素的关系。结果显示,女性、较高的教育水平和每周锻炼与较低的OMICmAge(即更年轻的生物年龄)显著相关。而黑人种族、肥胖和吸烟则与较高的OMICmAge显著相关。在TruDiagnostic队列中,偶尔使用娱乐性药物与较高的生物年龄相关,而服用抗氧化剂和Omega-3鱼油则与较低的生物年龄相关。
结论与讨论
本研究成功开发并验证了三个具有临床相关性的新型衰老生物标志物:基于临床数据的EMRAge、其DNA甲基化代理DNAmEMRAge,以及整合了多组学信息的OMICmAge。EMRAge作为一个混合型衰老指标,巧妙地将临床健康状况与死亡风险结合到一个易于在电子病历系统中大规模推广的稳健指标中。DNAmEMRAge和OMICmAge则进一步将这种临床相关性延伸至分子层面。
OMICmAge是本研究的核心创新。它通过EBPs框架,将蛋白质组、代谢组和临床领域的信息“蒸馏”到单一的DNA甲基化读数中,从而实现了仅通过DNA甲基化检测即可量化多组学生物学过程的目标。这不仅大幅降低了多组学整合应用的成本和复杂性,还显著提升了生物年龄测量的可重复性和生物学可解释性。研究证明,OMICmAge与一系列衰老相关疾病和死亡率有着强烈且稳健的关联,其性能与当前最优的衰老生物标志物相当甚至更优。
这一系统生物学框架将衰老的多个生物学层面统一到一个单一的、信息丰富的读数中,相比之前的“时钟”提供了更全面、更易解读的衰老视角。这些工具共同建立了一个兼具临床实用性和生物学基础的平台,用于评估生物年龄。未来的工作需要在更多样化的人群中进行验证,并进一步完善EBPs的准确性,例如通过靶向、定量的蛋白质和代谢物检测。这项工作有望推动衰老生物标志物从研究工具向临床实践的转化,为理解和干预衰老及相关疾病风险开辟了新的道路。