基于机器学习建模的阿尔茨海默病连续谱疾病进展预测：稳定、转化与逆转轨迹的鉴别研究

《NeuroImage》：Converse or Reverse? Machine-learning Modeling for Disease Progression: A Study Based on Alzheimer’s Disease Continuum Cohort

【字体：大中小】 时间：2026年01月28日 来源：NeuroImage 4.5

编辑推荐：

　　本研究针对阿尔茨海默病连续谱中疾病轨迹预测的挑战，系统评估了五种机器学习算法在ADNI队列中的表现。研究发现，随机森林模型在区分稳定、转化和逆转等不同纵向轨迹方面表现最优，其宏平均敏感性和特异性分别达到70.8%和96.8%。研究进一步识别出视空间与记忆相关认知功能障碍、淀粉样蛋白相关神经影像标志物以及血浆APOE4和神经丝轻链等关键预测因子，为阿尔茨海默病的早期预测和精准干预提供了重要依据。

随着全球人口老龄化进程加速，阿尔茨海默病(Alzheimer's Disease, AD)及其前驱阶段轻度认知障碍(Mild Cognitive Impairment, MCI)的防治已成为重大公共卫生挑战。患者从健康老化到MCI再到AD的纵向轨迹呈现高度异质性，部分MCI患者会进展为痴呆，部分保持稳定，甚至有超过20%的MCI患者可能逆转为正常认知。这种复杂多变的发展模式为准确预测和有效干预带来了极大困难。

阿尔茨海默病神经影像倡议(Alzheimer's Disease Neuroimaging Initiative, ADNI)作为一项纵向前瞻性研究，通过多模态数据为解密这一连续谱提供了宝贵资源。在此背景下，研究人员开展了一项创新性研究，旨在评估五种机器学习算法——随机森林(Random Forest, RF)、支持向量机(Support Vector Machines, SV)、径向基函数网络(Radial Basis Function Networks, RBF)、反向传播网络(Backpropagation Networks, BP)和卷积神经网络(Convolutional Neural Network, CNN)——在预测AD连续谱疾病进展方面的效能。

研究团队对ADNI1、ADNIGO、ADNI2和ADNI3四个阶段的参与者进行了系统筛选，最终纳入1199名具有完整纵向数据的参与者。根据诊断结果的变化轨迹，将这些参与者分为七组：稳定健康(StableHC)、稳定MCI(StableMCI)、稳定AD(StableAD)、不稳定逆转(UnstableReverse)、不稳定转化健康(UnstableConvertibleHC)、不稳定转化MCI(UnstableConvertibleMCI)和不稳定进展(UnstableProgress)。研究整合了人口统计学特征、临床评估、神经影像标志物(磁共振成像和正电子发射断层扫描)和生物样本标志物(如血浆和脑脊液)等多维数据，共计6240个原始变量。

在方法学上，研究采用了三种个体内指标来评估纵向轨迹：全局水平(Global level)，代表随访期间的整体测量值；时间变异(Temporal variation)，表示访视间的纵向波动；因果推断(Causal inference)，量化随访时间与变量变化之间的关联。通过严格的质量控制，最终保留2324个个体内变量作为机器学习的特征。

关键技术方法概述

研究主要依托ADNI多中心队列数据，采用五种机器学习算法进行疾病轨迹分类。关键技术包括：多模态数据整合与预处理、个体内纵向指标计算(全局水平、时间变异、因果推断)、机器学习模型训练与优化(随机森林、支持向量机、径向基函数网络、反向传播网络、卷积神经网络)、模型性能评估(敏感性、特异性、精确度、准确率、F1分数)以及特征重要性分析。神经影像数据处理涉及FreeSurfer图像分析套件进行脑萎缩分析，PET图像分析流程包括使用FreeSurfer定义感兴趣区域和计算标准化摄取值比(Standardized Uptake Value Ratio, SUVR)。样本队列来源于ADNI研究的1199名参与者。

研究结果

机器学习模型预测效能比较

随机森林模型在多项关键效能指标上均优于其他模型，在所有参与者组中实现了70.8%的宏平均敏感性和96.8%的特异性。具体而言，随机森林在稳定健康组、稳定AD组和不稳定转化MCI组分别达到了97.84%、88.31%和85.55%的敏感性。特异性在各组和各模型间变化较小，范围在86.39%至100%之间。其他模型的性能指标分别为：支持向量机精确度37.5%-98.59%，准确率88.05%-97.77%；径向基函数网络精确度50%-96.96%，准确率86.11%-98.05%；反向传播网络精确度44.11%-100%，准确率84.44%-98.61%；卷积神经网络精确度54.83%-100%，准确率90%-99.16%。

人口统计学特征分析

不同纵向轨迹类型的参与者在性别、婚姻状况等人口统计学特征上存在显著差异。稳定AD组的体重指数(Body Mass Index, BMI)和教育年限低于稳定健康组和稳定MCI组。年龄方面，稳定AD组比稳定健康组和稳定MCI组年龄更大，而不稳定逆转组则显著年轻于其他不稳定组。APOE4等位基因与AD病因显著相关，携带一个或两个等位基因增加了发展为稳定AD或不稳定转化MCI的可能性。

随机森林中的重要性值和潜在预测因子

通过随机森林重要性值识别出的潜在预测因子需满足两个标准：在LASSO回归中绝对β系数排名前1.2%(≥0.1)；在随机森林中绝对重要性值排名前17.2%(≥0.15)。研究发现淀粉样蛋白摄取是所有分析中的关键预测因子。

在临床评估方面，临床痴呆评定量表总和(Clinical Dementia Rating Sum of Boxes, CDRSB)的时间变异(重要性=0.25，LASSO β=1.76)和逻辑记忆延迟回忆(Logical Memory delayed recall, LDELTOTAL)的时间变异(重要性=-0.19，LASSO β=0.15)与参与者分组和疾病进展密切相关。视空间功能障碍也显示出预测价值，如因果推断指标中的时钟绘制任务表现(COPYSCORE_beta)和日常认知中的视空间功能障碍(EcogPtVisspat_beta)。

神经影像学方面，¹⁸F-AV45正电子发射断层扫描在预测MCI/AD进展方面表现出优于T1加权磁共振成像和氟代脱氧葡萄糖正电子发射断层扫描(Fluorodeoxyglucose Positron Emission Tomography, FDG PET)的价值。淀粉样蛋白标准化摄取值比在海马旁回、脑室和尾侧扣带回等区域显示出特别的预测意义。

生物标志物分析表明，血浆长链神经丝轻链(neurofilament light chain, NFL)是跟踪健康-MCI-AD连续谱进展的有前景预测指标。因果推断分析证实，血浆APOE4水平有助于预测参与者分组。

认知功能障碍预测因子

随机森林量化了认知测量对AD轨迹的预测重要性。临床痴呆评定量表全球评分(CDGLOBAL)的时间变异(重要性=0.25，LASSO β=1.76)、简易精神状态检查量表(Mini-Mental State Examination, MMSE)的因果推断(重要性=0.13，LASSO β=0.15)和日常认知量表(Ecog)的因果推断(重要性=0.20，LASSO β=-0.49)对整体认知衰退的预测价值优于ADAS13或蒙特利尔认知评估(Montreal Cognitive Assessment, MoCA)全球评分。

特定认知域中，视空间功能和记忆功能成为AD进展的重要预测因子，包括时钟绘制任务表现、ADAS13子项(物体命名、定向力、词语再认)和逻辑记忆II延迟回忆。

整合卷积神经网络与SHAP可解释性值的验证

作为补充分析方法，研究还采用了整合SHAP值的卷积神经网络进行比较。高SHAP值预测因子包括三大类：临床痴呆评定量表指标、血浆APOE4状态和痴呆家族史、神经影像和液体生物标志物。这些预测因子与随机森林算法得出的特征重要性评分一致。

研究结论与意义

本研究通过机器学习方法有效识别了沿健康-MCI-AD连续谱认知衰退和神经退行性变的关键预测因子。随机森林模型在临床实践中展现出提升诊断准确性的潜力，为支持诊断决策提供了客观证据。研究证实视空间和记忆相关认知功能障碍、淀粉样蛋白相关神经影像标志物以及血浆APOE4和NFL水平是疾病进展的重要预测指标。

这些数据驱动的方法不仅改善了疾病分类，还建立了将计算预测与潜在生物学机制联系起来的框架。研究发现有助于细化患者亚型，促进精准医学研究，并为开发靶向预防策略和个性化治疗干预提供了重要依据。随着机器学习技术在AD研究中的深入应用，这些计算洞察有望转化为临床实践，推动医疗模式从"被动诊疗"向"主动预防和精准分层管理"转变。

该研究发表于《NeuroImage》杂志，为理解阿尔茨海默病连续谱的复杂轨迹提供了重要见解，为未来研究指明了方向。通过识别可靠的预测因子和验证机器学习方法的应用，本研究为早期诊断、风险分层和个性化干预策略的开发奠定了坚实基础，对阿尔茨海默病的临床管理具有重要意义。

热点排行

新闻专题