《Nature Aging》:Subtyping Alzheimer’s disease and Parkinson’s disease using longitudinal electronic health records
编辑推荐:
本文为应对神经退行性疾病显著的临床异质性对非选择性治疗策略构成的挑战,研究人员利用大规模英国电子健康记录数据,应用Transformer框架进行无监督聚类分析,成功识别并验证了阿尔茨海默病和帕金森病各五种具有不同共病模式、症状轨迹、预后及遗传特征的亚型。研究揭示了跨疾病的代谢-炎症和血管-精神病学等共享表型,为早期、生物学信息驱动的分型及未来靶向干预提供了可扩展框架。
随着年龄的增长,神经退行性疾病(NDDs)如阿尔茨海默病(AD)和帕金森病(PD)已成为日益严峻的公共卫生挑战。AD正迅速成为二十一世纪最具致残性和耗费高昂的疾病之一,而PD是第二大常见的神经退行性疾病。两者在临床表现和疾病轨迹上均存在显著的异质性,这给诊断、预后判断以及治疗药物的开发带来了巨大困难,常常导致疾病修饰干预措施的失败。因此,将AD和PD细分为更同质的亚型,以改善预后准确性和加速发现个性化疗法,已成为研究热点。然而,现有的亚型研究通常面临样本量小、缺乏外部验证、过度依赖发病后特征以及临床与遗传数据孤立分析等局限性。随着大规模电子健康记录(EHRs)的发展以及机器学习技术的进步,为复杂疾病的亚型分析开辟了新的机遇。
为了应对这些挑战,Lian及其同事在《Nature Aging》上发表了一项研究。他们利用英国两个大型队列——临床实践研究数据链(Clinical Practice Research Datalink,CPRD)Aurum和英国生物样本库(UK Biobank)——超过10万名患者的纵向电子健康记录数据,应用了一个基于Transformer的无监督聚类框架,旨在识别、验证并描述AD和PD的亚型。这项研究整合了常规收集的临床数据与遗传分析,旨在提供一个可扩展的框架,为神经退行性疾病的未来靶向干预奠定基础。
研究人员开展这项研究主要运用了几个关键技术方法:首先,研究设计依赖于两个大规模纵向队列(CPRD Aurum和UK Biobank),利用患者诊断前的完整电子健康记录作为输入。其次,采用基于Transformer的深度学习模型对时间戳化的医疗事件序列进行表示学习,将每位患者的医疗史转化为向量表征。接着,使用K-means聚类算法对生成的向量进行聚类,并通过预测强度分析确定最佳亚型数量(五个)。最后,通过生存分析、共病图谱、症状轨迹分析以及遗传风险评分(PRS)和单核苷酸多态性(SNP)关联分析,对识别出的亚型进行多维度验证和生物学解释。
研究结果
研究设计与患者特征
研究主要使用CPRD Aurum作为主要数据源,UK Biobank作为外部验证集。最终,来自CPRD和UK Biobank的共计113,545名AD患者和45,825名PD患者被纳入分析。患者提供了长期(中位数约18-35年)的诊断前观察期记录。
模型验证与聚类稳定性
利用Transformer模型将患者诊断前的EHR数据转化为向量表示,并通过K-means聚类。使用预测强度阈值≥0.95的标准,确定了对AD和PD各五个亚型(簇)。t-SNE图显示了清晰的簇分离,且与基线模型相比,Transformer方法在聚类稳定性和可重复性上表现显著更优。
阿尔茨海默病与帕金森病的五种亚型
研究人员根据主要的临床和遗传特征为每个亚型分配了描述性标签。
对于AD,五个亚型包括:经典晚发型(簇1)、血管相关型(簇2)、神经精神主导型(簇3)、代谢-炎症型(簇4)和感觉运动型(簇5)。
对于PD,五个亚型包括:经典遗传型(簇1)、血管相关型(簇2)、严重神经精神型(簇3)、代谢-炎症型(簇4)和心血管-运动型(簇5)。
各亚型在人口统计学、医疗就诊频率等方面存在差异,但全科医生(GP)层面的影响很小。
死亡率与住院率
不同亚型在5年全因死亡率和疾病相关住院率上存在显著差异。对于AD和PD,簇1(经典/经典遗传型)的死亡率和住院率均最低。而AD的簇5(感觉运动型)和PD的簇5(心血管-运动型)死亡率及住院率最高。在调整了人口统计学和医疗使用差异后,亚型与死亡风险的关联依然稳健。
亚型特异性共病
通过热图和加权判别分数(WDS)分析了各亚型的共病特征。例如,AD的簇2以原发性高血压(94%患者)为主导;簇4糖尿病患病率极高(97%);簇5则心血管疾病突出。PD的共病模式与AD高度相似,显示出跨疾病的共享模式,如血管、代谢特征等。
亚型特异性疾病相关症状模式
分析了诊断前后各5年(共10年)的症状轨迹。AD的簇3表现出最高的抑郁和焦虑发生率,且认知功能(通过简易精神状态检查,MMSE评估)下降更快。AD的簇4和簇5则有突出的运动障碍(如跌倒、冻结步态)。PD的簇3表现出最严重的PD症状,包括更高的焦虑抑郁、运动症状以及更早出现的震颤。PD的簇4和簇5则表现出更高的认知障碍和痴呆患病率。
亚型的遗传学解释
通过多基因风险评分(PRS)分析发现,所有AD和PD亚型的疾病特异性PRS均显著高于对照组。值得注意的是,AD的簇4(代谢-炎症型)的AD-PRS显著低于其他簇,而簇1(经典晚发型)的AD-PRS则显著高于其他簇。PD的簇3和簇4的PD-PRS显著低于其他簇。此外,其他疾病的PRS也与各亚型的主导共病特征相符,例如AD簇2的高血压和卒中风险升高,簇4的糖尿病风险升高等。
通过单核苷酸多态性(SNP)分析发现,在AD中,簇4(代谢-炎症型)携带载脂蛋白E ε4等位基因(APOE4)的风险较低,而携带载脂蛋白E ε2等位基因(APOE2)的风险较高;簇1(经典晚发型)则与ATP结合盒转运蛋白A7基因(ABCA7)的风险变异相关。在PD中,簇2(血管相关型)显示富含亮氨酸重复激酶2基因(LRRK2)风险变异的趋势,而簇4(代谢-炎症型)中APOE4等位基因频率相对较低。
结论与讨论
本研究利用大规模纵向电子健康记录数据和基于Transformer的框架,成功识别了AD和PD各五种可重复的亚型。这些亚型具有独特的共病模式、症状轨迹、预后和遗传特征。研究的关键发现在于揭示了跨AD和PD的共享临床模式,例如代谢-炎症表型和血管-精神病学表型,这可能反映了神经退行性过程中共同的系统性疾病风险机制。此外,研究识别了高遗传易感性但临床进展相对平缓的“韧性”亚型(如AD和PD的簇1),以及伴有严重心血管/运动功能障碍的高风险亚型(如两病的簇5)。
这些发现将临床表型与遗传背景联系起来,例如,AD中血管负担与APOE4的共存支持了“混合性痴呆”的概念;代谢-炎症亚型(簇4)尽管遗传风险较低,却表现出侵袭性的疾病进程,强调了系统性代谢紊乱在神经退行过程中的潜在作用。神经精神亚型(簇3)则凸显了早期精神健康管理的重要性。
该研究的优势在于利用了真实的、大规模的纵向临床数据,并进行了内部和外部验证。然而,其局限性包括依赖临床诊断代码而非生物标志物确认的诊断、症状记录可能不完整、认知测试数据稀疏以及可能存在检测偏倚。
总之,这项研究提供了一个基于常规电子健康记录数据的、可扩展的疾病亚型分析框架。它加深了我们对AD和PD临床异质性的理解,揭示了潜在的跨疾病机制,并为未来整合多模态生物标志物、实现神经退行性疾病的早期风险分层和精准医疗干预奠定了基础。