《Annals of Neurology》:Chronological Diagnostic Algorithm Predicting Neuropathology in Parkinsonism
编辑推荐:
这是一篇发表于2026年的前沿研究,其核心在于利用机器学习(ML)模型,结合患者发病后临床特征出现的时间序列信息,来预测帕金森综合征(parkinsonism)背后的神经病理学诊断,包括路易体病(LBD)、进行性核上性麻痹(PSP)等单一及混合病理。研究从梅奥诊所脑库的病理确诊数据出发,开发了性能优越(3年时曲线下面积AUROC达0.83)、可解释性强且能处理不完整数据的诊断算法,为临床提供了连接患者病史与靶向生物标志物检测的高效、低成本筛查工具。
背景与挑战
帕金森综合征是一种以运动迟缓、肌强直和静止性震颤为主要特征的临床综合征。其背后潜在的神经病理学诊断复杂多样,包括最常见的路易体病(Lewy body disease, LBD,含帕金森病PD和路易体痴呆DLB),以及一系列非典型帕金森综合征,如进行性核上性麻痹(progressive supranuclear palsy, PSP)、多系统萎缩(multiple system atrophy, MSA)和皮质基底节变性(corticobasal degeneration, CBD)。此外,阿尔茨海默病(Alzheimer's disease, AD)和额颞叶变性(frontotemporal lobar degeneration, FTLD)也可表现出帕金森特征,使得鉴别诊断极具挑战。尸检研究揭示了临床区分这些疾病的困难,例如皮质基底节综合征(corticobasal syndrome)并不总对应CBD病理。疾病早期,患者症状常不典型,且多种神经病理共存(如AD与LBD共病)的情况普遍,但目前识别这些混合病理的知识有限。随着针对特定神经退行性病理的疾病修饰疗法兴起,对潜在神经病理的准确诊断需求日益增长。生物标志物检测(如正电子发射断层扫描PET、脑脊液分析)虽有价值,但价格昂贵且不易普及。因此,迫切需要一种基于患者病史和神经学检查、能高效预测帕金森综合征潜在神经病理的筛查工具。人工智能在病理图像分类上已有成功应用,但利用临床症状(特别是症状出现的时间序列信息)来预测病理的研究尚少。本研究旨在填补这一空白,利用时间序列临床数据开发机器学习算法,以预测帕金森综合征的神经病理学诊断。
研究方法
本研究为回顾性研究,数据来源于梅奥诊所脑库(佛罗里达州杰克逊维尔)1997年至2023年间收存的7825名捐赠者。通过微调的生成式预训练转换器4(GPT-4)模型自动从医疗记录中提取结构化临床信息。帕金森综合征定义为符合当前帕金森病诊断标准的运动迟缓合并肌强直或震颤。疾病发作定义为首次记录到可归因于潜在神经退行性疾病的神经系统症状的时间。为与既往文献保持一致,将发病后3年内出现的症状和体征视为早期表现。研究纳入了在疾病发作3年内出现帕金森综合征的患者。为开发适用于临床环境的高效筛查工具,研究排除了在总原发性神经病理诊断中占比少于2%的次要疾病(如肌萎缩侧索硬化ALS、与17号染色体相关的额颞叶痴呆伴帕金森综合征等),并对共病组合进行了类似筛选,最终确定了9个神经病理学诊断类别作为预测标签:LBD、LBD合并AD(LBD-AD)、PSP、PSP合并AD(PSP-AD)、PSP合并LBD(PSP-LBD)、MSA、CBD、AD以及FTLD,共计949名患者纳入最终分析。
模型开发使用200个参数作为输入:年龄、性别、神经退行性疾病家族史以及197个临床症状和体征。对于每个临床症状,如果存在,则输入其发病后最早出现的时间点(年);如果不存在,则赋值100;如果未评估,则赋值50。这些赋值旨在使缺失和未评估值在后续基于决策树的模型中能被清晰区分。研究在疾病发作后1至10年的每个时间点构建数据集,使用10折交叉验证,将数据随机按9:1分为训练集和测试集。针对训练数据中的类别不平衡问题,使用Python库imbalanced-learn进行过采样,使少数类与多数类样本量匹配。随后,训练了6种多标签分类机器学习模型:CatBoost、LightGBM、XGBoost、随机森林、多层感知机(multilayer perceptron, MLP)以及这5种模型的堆叠集成。模型性能通过加权接收者操作特征曲线下面积(area under the receiver operating characteristic curve, AUROC)和准确度进行评估。此外,研究还评估了输入参数数量对性能的影响,并最终将每个时间点性能最佳的模型集成到一个Python程序中。该程序接受包含不同程度缺失数据的临床特征作为输入,输出对诊断类别的预测概率,并通过沙普利加性解释(SHAP)值提供可视化参数贡献解读,相关代码已在GitHub开源。
研究结果
患者队列以男性为主(59.1%),死亡中位年龄为73岁。不同诊断类别在性别、发病年龄、疾病持续时间、Braak神经原纤维缠结(NFT)分期、Thal相位、载脂蛋白E(APOE)ε4等位基因频率等方面均存在显著差异。临床诊断准确性方面,PSP(90.1%)和MSA(81.7%)的生前诊断准确性很高,而CBD(51.5%)、AD(46.5%)和FTLD(35.1%)的准确性较低。伴有AD(75.0%)或LBD(74.1%)共病的PSP病例被诊断为PSP的可能性低于不伴共病的PSP病例(90.1%)。
研究提取了包含197种症状体征及其出现时间的结构化临床数据。雷达图可视化展示了不同诊断类别在发病3年内及终生关键临床特征(如快速眼动睡眠行为障碍RBD、视觉幻觉、眼球运动障碍、自主神经功能障碍、姿势不稳等)的患病率,结果与各类疾病的典型表现一致。症状进展方面,震颤在LBD、MSA和CBD中出现最早;姿势不稳在PSP中出现最早;遗忘在AD和FTLD中出现最早。
在预测9个诊断类别的任务中,CatBoost模型表现最佳,在疾病发作3年后,加权平均AUROC达到0.83,在10年后达到0.86。在发病3年时,对各诊断标签的一对多(one-vs-rest)AUROC评估显示,MSA(0.91)、LBD-AD(0.86)、AD(0.86)和PSP(0.83)的AUROC较高,而PSP-AD和PSP-LBD的AUROC相对较低,分别为0.68和0.67。混淆矩阵显示,81%的PSP和66%的MSA被正确预测,但74%的PSP-AD和70%的PSP-LBD病例被误分类为PSP。包含共病在内的9分类总准确度为0.53,而仅针对原发性诊断的准确度为0.63。
特征重要性分析显示,在发病3年后,最重要的预测特征是发病年龄,其次是眼球运动受限和震颤。通过评估使用不同数量重要特征时的模型性能,研究发现仅需23个参数即可在发病3年后使AUROC达到0.80的可靠预测阈值。研究人员将模型与SHAP解释工具整合,开发了一个用户友好的应用程序。该程序能够接受带有缺失数据的临床特征输入,并输出诊断概率及可视化参数贡献图。
讨论与结论
本研究开发的诊断算法具有几大优势:卓越的性能、基于神经病理诊断(包括共病)的预测、广泛的适用性以及良好的可解释性。其性能优于此前多项基于临床诊断标准验证的研究。算法能够区分LBD与LBD-AD,这对于确定靶向分子疗法的 eligibility 至关重要。虽然算法倾向于将PSP-AD和PSP-LBD预测为PSP,但这可能源于病例数较少及临床表现相似,且在大多数临床环境中这两种共病极为罕见,此偏差尚可接受。该算法适用于发病后1至10年、具有不同程度缺失数据的患者,对不完整数据具有鲁棒性。开源工具为临床医生提供了仅基于患者病史和神经学检查的、可解释的筛查手段,有助于连接后续的生物标志物研究和靶向治疗。
本研究也存在一定局限性。首先,脑库登记性质导致PSP病例在数据集中占比较大,尽管使用了合成少数类过采样技术(SMOTE)处理类别不平衡,但算法仍可能将CBD和FTLD误分类为PSP,这可能反映了PSP固有的异质性。其次,少数神经病理诊断(如主要脑血管病CVD、ALS)因病例数少被排除,但这些疾病的诊断主要依赖于非帕金森症状、影像学或电生理学发现。最后,需要在独立机构的数据上进行外部验证以确认算法的普适性和稳健性。
总而言之,这项经过神经病理学确认的诊断算法,有望成为一种高效、经济的筛查工具,用于区分帕金森综合征患者的潜在神经病理学,在生物标志物检测和神经病理特异性治疗之间架起桥梁。