《Nature Medicine》:A deep joint-learning proteomics model for diagnosis of six conditions associated with dementia
编辑推荐:
神经退行性疾病常伴随共病理,这给精准诊断、治疗和临床管理带来挑战。为解决此问题,研究团队构建了名为ProtAIDe-Dx的深度联合学习模型。该模型利用一次抽血获得的血浆蛋白质组学数据,可同时对与痴呆相关的六种疾病(如AD、PD等)进行概率诊断。研究显示,该模型在跨验证中取得了70-95%的平衡分类准确度,并在外部记忆门诊样本中显示出识别共病理的潜力,凸显了其通过单一血液检测改善患者层面诊断流程的应用前景。
随着全球人口老龄化加剧,痴呆症患者数量正以前所未有的速度增长,给家庭和社会带来了沉重的负担。然而,精准诊断神经退行性疾病却是一项艰巨的挑战。这不仅因为阿尔茨海默病(Alzheimer's disease, AD)、帕金森病(Parkinson's disease, PD)、额颞叶痴呆(frontotemporal dementia, FTD)等多种疾病在临床症状上可能相互重叠,更因为“共病理”现象在老年患者中极为普遍——高达70%的80岁以上患者可能同时存在多种神经退行性病变。这种复杂性导致了惊人的误诊率,即使在专业的痴呆诊所,误诊率也可能达到25-30%,而在初级诊疗机构甚至可能超过50%。误诊不仅可能导致患者无法获得最合适的治疗,也严重干扰了新药临床试验中正确患者的筛选,甚至可能掩盖潜在有效疗法的积极效果。因此,开发能够同时、精准识别多种潜在病理的生物标志物工具,已成为神经科学领域迫在眉睫的需求。
理想的生物标志物应具备高灵敏度、高特异性,并且易于获取、成本低廉、创伤小。血液生物标志物正是符合这些条件的理想候选者。尽管针对AD的血液生物标志物(如血浆p-tau217)已展现出巨大潜力,但对于PD、FTD等其他神经退行性疾病,目前仍缺乏可扩展的、灵敏特异的血液诊断工具。血浆蛋白质组学技术为此提供了一条充满希望的道路,它能够通过一次抽血,对上万个潜在的蛋白质生物标志物进行高通量检测。然而,海量的蛋白质数据本身也带来了挑战:数据维度极高、存在技术伪影、且可能蕴含着复杂的非线性相互作用关系。
为了克服这些挑战,并挖掘血浆蛋白质组在神经退行性疾病诊断中的巨大潜能,一个国际研究团队在《Nature Medicine》杂志上发表了他们的最新成果。他们利用目前全球最大的神经退行性疾病血浆蛋白质组学数据集——全球神经退行性蛋白质组学联盟(Global Neurodegenerative Proteomics Consortium, GNPC)v1.3MS版本的数据,构建了一个名为“基于蛋白质组学的人工智能痴呆诊断”(Proteomics-based Artificial Intelligence for Dementia Diagnosis, ProtAIDe-Dx)的深度联合学习模型。该研究旨在开发一个能够通过单次血液检测,同步提供对六种与痴呆相关的衰老性疾病(AD、PD、FTD、肌萎缩侧索硬化(amyotrophic lateral sclerosis, ALS)、卒中/短暂性脑缺血发作(stroke/transient ischemic attack, TIA)以及认知未受损对照)进行概率诊断的工具,并评估其在真实临床场景中的应用价值。
研究人员为开展此项研究,主要运用了以下几项关键技术方法:首先,研究基于GNPC联盟的大型回顾性队列,从19个贡献站点中筛选了17,187名参与者(平均年龄70.3±11.5岁,53.2%为女性)的SomaLogic 7k蛋白质组学数据作为模型开发和内部验证集。其次,他们采用了深度多任务神经网络架构(ProtAIDe-Dx模型),该架构能够从高维蛋白质数据中学习共享信息,并同时输出对六种疾病的二进制诊断及各自的诊断概率。模型训练采用了十折交叉验证,并严格避免了信息泄露。再者,研究利用特征置换等方法对模型进行解释,以识别对各类诊断最重要的关键蛋白质。最后,研究在一个独立的外部记忆门诊队列——瑞典BioFINDER-2研究(该队列也是GNPC的一部分,但在模型训练中被排除)中进行了泛化验证和临床效用评估,将模型预测结果与包括CSF Aβ42/Aβ40、tau-PET、血浆p-tau217、CSF α-突触核蛋白种子扩增实验(seed amplification assays, SAA)等在内的金标准生物标志物进行关联分析。
研究结果
联合学习改善了不平衡样本中基于血液的神经退行性疾病多诊断预测
研究人员将ProtAIDe-Dx模型应用于GNPC样本。与随机森林(Random Forest)、XGBoost和TabPFN等基线机器学习模型相比,ProtAIDe-Dx在多数诊断任务中表现最佳。模型在ALS和PD分类上达到了最高的中位平衡分类准确度(balanced classification accuracy, BCA),分别为95%和92%,在对照、AD、FTD和卒中/TIA分类上的BCA分别为83%、81%、72%和70%。所有诊断任务的曲线下面积(area under the curve, AUC)均大于78%。模型预测的AD诊断概率与已知的AD风险因素表现一致:携带更多APOEε4等位基因的个体具有更高的AD概率,而携带更多ε2等位基因的个体则概率较低;同时,AD概率与简易精神状态检查(Mini-Mental State Examination, MMSE)分数呈负相关,表明更差的认知状况与更高的AD概率相关。这些“合理性检验”表明模型衍生的诊断概率可以作为与疾病进展指标相关的连续蛋白质组学评分。
诊断概率揭示了疾病异质性和共病理
ProtAIDe-Dx为每个个体提供了针对六种疾病的诊断概率。通过将这些概率投射到二维空间,研究人员发现个体很自然地根据其真实临床诊断聚集,而不是根据数据来源站点。常见的表型数据(如认知损害、APOEε4携带状态、高血压)在概率图上的分布也符合预期模式。模型还将3,116名临床诊断为轻度认知损害(mild cognitive impairment, MCI)或主观认知下降(subjective cognitive decline, SCD)的患者投射到该概率图上,这些病例均匀地分布在对应于不同疾病区域的嵌入空间中,表明ProtAIDe-Dx有潜力帮助诊断处于损害早期阶段的患者。
有趣的是,许多病例分布在与其临床诊断不一致的嵌入区域,例如部分AD病例分布在卒中/TIA区域。通过聚类分析,研究发现了每个主要诊断类别内的亚群。例如,在健康对照中,出现了一个与AD和卒中/TIA区域边缘相交的非主导集群,该集群的个体年龄更大,血管/代谢风险因素比例更高,认知更差。在AD患者中,也发现了两个次要集群,一个与卒中/TIA区域共定位,另一个与PD区域共定位,它们各自显示出不同的临床和蛋白质组学特征。在ALS患者中,一个次要集群更靠近FTD区域,并且显示出更高的C9orf72基因突变率和MCI比例。这些发现表明,基于蛋白质组学的疾病概率图能够揭示传统临床诊断框架下的疾病异质性,可能识别出具有不同生物学基础或临床轨迹的亚型。
模型解读突出了疾病特异性网络和关键判别蛋白
为了理解模型做出诊断决策的生物学基础,研究人员通过特征置换方法识别了对模型预测最重要的蛋白质。分析揭示了一系列预期中及新发现的与各种疾病相关的蛋白质。例如,NEFL对FTD、CLU和SMOC1对AD、SUMF1对PD具有高判别力。神经元pentraxin受体(neuronal pentraxin receptor, NPTXR)的多种适配体对多种神经退行性疾病有判别作用。此外,还发现了一些与脑功能、认知弹性或已知治疗药物相关的蛋白质,例如GLO1、TGFB1、IGF2、OMG以及乙酰胆碱酯酶(acetylcholinesterase, ACHE,AD常用治疗靶点)和KCNIP3(与ALS治疗药物利鲁唑相关)。
研究人员进一步探究了模型内部低维“嵌入”的蛋白质组成。这些嵌入代表了与神经退行性疾病相关的独特非线性蛋白质组合。分析发现,脑特异性蛋白在所有嵌入中都高度普遍。通过基因本体(Gene Ontology, GO)富集分析和细胞类型特异性分析,研究人员为一些关键嵌入赋予了生物学解释。例如,其中一个嵌入可能反映了神经元功能衰退,与跨衰老和神经退行性疾病的认知损害相关的弹性降低和突触失调有关;另一个嵌入则可能捕获了连接衰老、性别与神经退行性疾病风险增加的胶质细胞易损性通路。
样本外泛化及疾病特异性神经病理生物标志物验证
研究通过“留一站点出”交叉验证来测试模型的泛化能力。尽管性能相较于内部交叉验证有所下降(这是预期之中的),但ProtAIDe-Dx在所有任务上仍然显著优于随机森林和XGBoost基线模型。随后,研究在完全独立的BioFINDER-2记忆门诊队列中验证模型。ProtAIDe-Dx的诊断性能与“留一站点出”验证的中位数性能接近。
更重要的是,在BioFINDER-2队列中,模型预测的诊断概率与疾病特异性生物标志物显示出有意义的关联。例如,在临床认知未受损的个体中,模型预测的“健康对照”概率在那些表达AD、路易体或神经血管病理的参与者中更低。在非AD病例中,AD预测概率在伴有Aβ和Tau共病理的个体中更高。卒中/TIA预测概率与白质高信号(white matter hyperintensity, WMH)负担在受损和未受损个体中均呈正相关。这些关联表明,ProtAIDe-Dx的一些“假阳性”预测可能实际上正确识别了潜在的临床前神经病理,凸显了其探测亚临床病理的潜力。
蛋白质组学为记忆门诊样本的诊断提供增量信息
为了评估ProtAIDe-Dx在真实临床环境中的附加价值,研究人员在BioFINDER-2队列中构建了一系列模型来鉴别主要病因诊断。结果显示,结合了ProtAIDe-Dx嵌入与常见临床生物标志物(人口统计学、MMSE、AD特征皮层厚度、血浆p-tau217、血浆NEFL)的模型,其诊断性能显著优于仅使用常见临床生物标志物的模型,特别是在非AD痴呆的诊断方面增加了价值。
此外,尽管模型仅使用基线访视数据训练,但其基线预测诊断能够显著区分GNPC和BioFINDER-2队列中患者纵向认知下降的速度。具体而言,被ProtAIDe-Dx预测为AD的患者,无论其基线临床诊断如何,都表现出更快的认知下降速率。这表明临床诊断标签可能无法完全反映潜在的疾病进展,而ProtAIDe-Dx似乎捕获了更多与疾病轨迹相关的生物学信号。
模型输出的诊断概率还能提供临床可解读的生物标志物状态指示。例如,当AD概率超过0.9时,大多数患者经Tau-PET或CSF p-tau217检测为Tau蛋白阳性,并且皮层厚度低于诊断阈值。研究人员还提出了一种“双截断值”策略,利用模型概率来预测生物标志物阳性状态,在SCD患者中实现了高特异性(>90%)和阳性预测值。
概念验证性诊断报告
研究最后展示了基于ProtAIDe-Dx生成个体化神经退行性疾病风险报告的概念验证。报告不仅展示个体对所有六种疾病的诊断概率,并将其定位在GNPC疾病概率图中,还利用SHAP值等模型解释技术,列出了对该个体预测贡献最大的关键蛋白质。报告甚至可以通过程序化访问蛋白质-性状关联库,提供与这些关键诊断蛋白相关的生理性状信息,为生活方式干预或进一步检查提供线索。研究者通过一个75-80岁、有主观认知抱怨但客观认知完整的男性案例进行了演示。ProtAIDe-Dx预测其存在潜在的AD和路易体病理共病,后续的PET成像和CSF检测证实了皮层Aβ负担、颞叶tau病理以及阳性的CSF α-突触核蛋白SAA结果。
研究结论与讨论
ProtAIDe-Dx研究展示了将人工智能应用于大规模血浆蛋白质组学数据,以开发针对神经退行性疾病的、可扩展、微创、多疾病诊断工具的早期成功尝试。该模型不仅实现了对六种疾病的同时概率诊断,还揭示了疾病内部的异质性亚型,识别了新的关键蛋白质,并生成了与健康及疾病相关的生物学特征签名。
尽管ProtAIDe-Dx展现了巨大潜力,但研究者也坦诚指出了当前面临的挑战。首先,其诊断准确性尚未达到可独立用于临床的水平,这可能受限于高通量血浆蛋白质组学技术本身的性能天花板、血脑屏障对脑源性蛋白检测的限制,以及临床诊断标签本身可能存在的噪声和异质性。其次,模型在不同站点间的泛化性能仍有待提高,强烈的“站点效应”是血浆蛋白质组学数据共享的主要障碍之一,未来可能需要更先进的数据标准化或协调技术。此外,药物使用等多种因素对循环蛋白水平的潜在混淆效应也需要在未来的研究中仔细考量。
尽管如此,这项研究为未来的蛋白质组学研究设定了一个重要的基准。它证明了即使在不完美、多样化的真实世界数据中,血浆蛋白质组学结合深度学习,能够为神经退行性疾病的鉴别诊断和共病理识别提供显著的增量信息。随着GNPC等联盟数据的不断扩展、检测技术的进步(如质谱分析更特异的肽段片段)、以及模型泛化能力的提升,ProtAIDe-Dx所代表的研究方向有望最终实现通过一次抽血即可对多种神经退行性疾病进行精准、个体化诊断的愿景,从而为神经退行性疾病的精准医疗铺平道路。