基于单次MRI扫描预测阿尔茨海默病（Alzheimer’s disease, AD）的分类及连续预后结局

《Nature Aging》：Predicting categorical and continuous Alzheimer’s disease outcomes from a single MRI scan

【字体：大中小】 时间：2026年05月19日 来源：Nature Aging 19.4

编辑推荐：

　　深度学习（DL）在预测阿尔茨海默病（AD）诊断方面已显示出成功，然而诸如认知评估之类的连续指标对于更丰富的预后、轨迹追踪及临床试验富集仍至关重要。目前的神经认知测验组合耗时较长，且少数预测认知的DL模型需要昂贵的多模态神经影像及纵向数据。尽管磁共振成像（MRI

深度学习（DL）在预测阿尔茨海默病（AD）诊断方面已显示出成功，然而诸如认知评估之类的连续指标对于更丰富的预后、轨迹追踪及临床试验富集仍至关重要。目前的神经认知测验组合耗时较长，且少数预测认知的DL模型需要昂贵的多模态神经影像及纵向数据。尽管磁共振成像（MRI）是临床上最易获取的模态，但其单独使用在现有的DL框架中难以捕捉AD的异质性。研究人员提出了一种多任务DL策略，将领域知识与大型预训练模型相结合，仅利用基线MRI和人口统计学信息来预测认知评分。通过定制损失函数并利用组织分割调谐的潜在表示作为正则化特征，该方法绕过了对纵向、多模态或专用神经影像数据的需求。这种知识启发的多任务框架可从单次基线扫描中准确产生诊断、分割以及当前和未来的认知评分，对早期诊断、预后及临床试验设计具有广泛意义。

本文解读的论文《Predicting categorical and continuous Alzheimer’s disease outcomes from a single MRI scan》发表在《Nature Aging》上。

研究背景方面，阿尔茨海默病（Alzheimer’s disease, AD）是一种影响全球超5000万人、占痴呆病例60%–70%的神经退行性疾病。目前已知多种进展风险因素，学界非常关注利用MRI等无创影像进行量化进展。现代机器学习（Machine Learning, ML）和深度学习（Deep Learning, DL）基于深度神经网络（Deep Neural Networks, DNNs）在分类任务（如早期发现、诊断AD与非AD、预测向痴呆转化）上已取得稳健准确结果，且有若干综述与荟萃分析。然而，神经学评估还需自然史和认知损害等额外标准，常由训练有 neuropsychologist 通过一组合神经认知测验评估，其中最重要者之一是阿尔茨海默病评估量表—认知子量表（Alzheimer’s Disease Assessment Scale—Cognition subscale, ADAS–Cog）。相比仅AI建议的诊断，精细的预后认知状态测量具有更大临床效用；另一重要用途是在大型临床试验中进行队列富集：正确预测快速进展者与不进展者可减少样本量从而降低成本。疾病严重度及进展速率与认知评分密切相关，因此准确预测认知也会间接辅助诊断与预后，但这具挑战性，因为认知是与脑回路因果关联的涌现属性，且潜在机制尚不清楚。AD患者脑萎缩与认知评分关联存在“显著异质性”。不过，神经退行性变对形态学的显著影响使从MRI预测AD认知下降在理论上可行；海马等认知热点随年龄变小，脑结构改变与更快认知下降及更高向痴呆转化率相关。遗憾的是，现代AI工具在用神经影像预测AD队列中认知等连续指标时成功较少，这不仅影响临床效用，也留下人类神经科学中若干最重要问题之一的空白：脑–心连接的神经关联，或图像水平形态学特征如何支配下游高层认知。研究人员指出限制转化影响的三个关键挑战：（1）成功分类并不产生可用的认知损害连续测量；在预训练ResNet50上迁移学习可稳健预测向痴呆转化，但与认知下降相关性差，涉及数百个实验室的Grand Challenges使用遗传、认知、正电子发射断层扫描（Positron Emission Tomography, PET）和MRI数据也未产生好的认知表现预测；DREAM挑战从多样模型得到适度认知下降预测，使用遗传或影像数据无临床价值；TADPOLE挑战使用若干生物标志物对ADAS–Cog13评分预测适度，其比临床诊断或脑室体积更难预测，即便排名第一的模型也无法优于有信息的随机猜测或简单混合效应回归。（2）荟萃分析研究表明，与非影像临床和认知生物标志物相比，MRI对分类任务的增量价值有限；报告其为若干模态中预测性最差的之一，且不支持作为单独附加测试用于痴呆早期诊断；非常少实例报告仅用单张MRI扫描（无PET、认知或临床生物标志物）可获得良好分类器准确率。（3）历史上，DNN直接使用原始MRI输入的表现不如那些遵循耗时容积或形态测量图像处理流程（如FreeSurfer或ANTs）提取区域特征者；例如TADPOLE中甚至适度的认知预测也需要精选的区域形态测量特征，而非直接在MRI上训练的卷积神经网络（Convolutional Neural Networks, CNNs）。这种对耗时预处理和先前特征选择的依赖会影响转化效用并强加模型依赖决策。这些挑战要求重新思考现成AI技术如何在神经退行性疾病研究中部署与扩展——即本研究目的。研究人员目标同时实现：（1）将脑MRI分割为灰质（Gray Matter, GM）、白质（White Matter, WM）和脑脊液（Cerebrospinal Fluid, CSF）组织类别；（2）预测诊断；（3）预测疾病严重度的连续测量——具体地，患者当前及未来认知评分。并希望仅用单张三维（3D）MRI扫描、无纵向数据、无PET或其他模态、无遗传或体液生物标志物、无基线认知评估来实现。这些目标范围由现实场景（尤其通常仅有结构MRI的社区诊所）临床转化相关性的总体要求驱动。但需注意该方法并非替代AD文献中已报道的其他生物标志物和模态；相反，成功的AI整合MRI旨在实现当可用时可进一步融合额外生物标志物的增强。

研究人员开展了如下研究：使用仅基线人口统计学与MRI，希望同时实现基线三项任务（组织分割、诊断分类、认知预测）及纵向认知。所呈现模型同时实现三者，但认知预测是主要目标。研究人员使用了混合模型：摄取表格数据的XGB，以及三种摄取基线MRI的影像模型：CNN、MedicalNet和UNet。组件见图1。整个研究使用三个公开数据集用于训练、交叉验证（Cross-Validation, CV）或样本外测试；人口统计学与数据处理细节见表1与补充方法1。通过全面CV，研究人员证明同时预测所有三项任务均达到最佳水平的准确率；尤其认知评分预测明显优于其他测试模型和先前报告。关键发现是最强结果需要最多领域知识驱动的定制，而其缺失时性能急剧下降。令人惊讶的是，研究人员发现从头训练的定制3D UNet性能可与参数量翻倍的重训练基础MedicalNet模型相媲美，突显这些定制的关键价值。为预测未来认知水平，研究人员重用从分割计算的组织层面体素计数——一个生物学动机数据重用的恰当例子——并报告仅用基线影像与人口统计学即可准确预测未来达36个月的认知。与许多缺乏可解释性的ML模型对比，研究人员进行了彻底的特征重要性分析，揭示结构MRI（sMRI）是认知最重要的贡献者，其次是年龄、婚姻和教育；遮挡分析强调痴呆脑中认知热点，尤其是外侧（或内侧）颞叶、后顶叶、扣带回、海马和杏仁核，这些热点呈多灶性且不沿粗回边界分布。认知热点广泛反映AD病理拓扑学和认知功能经典神经关联，强支持预测模型，并可启发未来探索其他条件下脑–行为关联。研究人员还实现了涵盖DNN和常规ML的九种替代预测模型，无一与所提模型媲美；同样，次要影像衍生特征（如组织体积和FreeSurfer分区）预测性低于所提基于sMRI框架，尽管它们有既定预测价值。最后，独立样本外研究（DLBS）证明方法无需进一步重训练即可泛化。这些数据与基准共同强支持该方法。

关键技术方法：研究人员使用来自ADNI（Alzheimer’s Disease Neuroimaging Initiative）数据库的数据（含人口统计学、MRI、诊断与认知评估）作为训练、测试与验证主数据集；使用HCP–YA（Human Connectome Project Young Adult）队列数据在预训练阶段增强分割任务训练样本的多样性与规模；使用来自OpenNeuro平台的DLBS（Dallas Lifespan Brain Study）数据作为独立外部样本外验证数据集。方法上，研究人员提出多任务集成DNN，同时做图像分割、预测诊断及预测当前和未来认知评分；影像模块取基线3D sMRI输入做分割，然后将训练后低维潜在变量送入全连接层预测主要结局（诊断、认知及纵向变化）；非影像基于树的梯度提升模块取参与者临床人口统计学与组织类分割体积作为输入，预测多任务输出；采用R²集成结合两模块以获得更好结果。影像模型架构包括定制3D UNet（训练分割任务，从其最集中卷积块提取特征以预测标量目标）与Tencent的MedicalNet（3DResNet架构，先在医学影像数据上预训练，再针对任务微调）。非影像模型使用XGBoost。损失函数方面，分割用分类交叉熵与Dice系数；诊断用二分类对数损失；认知用定制的Gamma损失（基于ADAS–Cog11分布近似为Gamma分布）替代常规MSE，并进行多任务总损失加权组合；纵向认知通过预测指数变化率参数α实现。采用九折CV与留出10%测试集，数据增广含弹性变换与标准化，确保无数据泄漏。也进行对比：用FreeSurfer衍生容积特征训练XGB基准模型。

研究结果部分：研究人员在结果中报告了基线结局预测、分割、诊断、基线认知预测、集成模型、联合预测所有表型、增强严谨性与评估模型选择、纵向认知预测、特征重要性与可视化、外部样本外测试、基于FreeSurfer容积的替代模型等。

分割：九折CV与样本外测试后的Dice分数列于表2。DNN模型生成的分割结果在视觉上与FSL–FAST提供的“银标准”无区别（图2a）。多任务UNet（M5）验证Dice分别为背景0.998、GM 0.964、WM 0.951、CSF 0.973。UNet+XGB模型（M9）采用定制Gamma损失总体Dice 0.9740，MedicalNet+XGB（M10）Dice 0.965（图2b）。这些数值与多数前沿分割算法相比有利；最佳性能需通过XGB使用人口统计学数据，表明人口统计学含某些相关组织信息，其纳入对模型训练与泛化产生期望的正则化效应。

诊断：表2与图2c,d总结各模型在诊断任务（AD与非AD）上的准确率。仅用结构MRI（sMRI）输入的UNet测试诊断准确率（n=195）为88.72%，MedicalNet为90.26%；当自适应加入人口统计学与分割信息并采用集成方法时，测试准确率分别提升至92.82%与92.30%（图2d）。ROC曲线（图2c）显示集成模型（M9、M10）达到>0.9的ROC曲线下面积（AUC）。因此集成与多模态数据结合提升性能；所有基准模型在交叉验证集（n=1,755）诊断准确率见补充表8，在留出测试集（n=195）见补充表9；补充图4进一步详述最优模型在三子集的混淆矩阵与ROC曲线。

基线认知预测：表2总结所有模型在基线ADAS11认知任务性能，报告ADNI队列的CV与留出测试结果。仅临床人口统计学的XGB回归器（M1）产生R²约0.24；在XGB上实施Gamma损失（M2）略优。单任务CNN模型（M3）仅能将R²提高到0.42。仅在ADNI MRI上训练的多任务UNet（M4）实现准确分割、诊断与认知预测，但纳入HCP并使用训练分割体积可将R²提高至0.66（M5）与0.58（M6）。将人口统计学加到UNet输入层（M7）与MedicalNet（M8）分别将R²提高至0.68与0.70。

集成模型：R²加权多任务UNet+XGB（M9）显示最佳R²CV范围0.78–0.87，测试R²0.82，平均绝对误差（Mean Absolute Error, MAE）2.48；集成MedicalNet+XGB（M10）达到R²CV范围0.77–0.87，测试R²0.80，MAE 2.29（图2f）。从被集成两模型各自CV表现的R²值（M2与M7，表2），观察到集成方法将XGB部分加权约30%，UNet部分约70%。值得注意的是，这些模型并非仅在疾病队列上分别训练，但所有组均被成功预测；补充表3显示尽管各组预测准确率一致高且可比，预期MCI参与者最低，其为临床最异质组。

联合预测所有表型：总体，联合纳入人口统计学、MRI与分割的模型倾向于在所有任务显示改进预测准确率（表2）。最优集成多任务UNet与XGBoost（M9）产生测试分割Dice分数0.9740、测试认知R²0.80，以及最佳留出测试准确率92.82%；类似地，Tencent的MedicalNet与XGBoost（M10）使用人口统计学与分割给出留出测试分割Dice 0.9654、最高测试认知R²0.82、测试诊断准确率92.30%。这些数值达到多数先前单任务基准模型上限，并指出所提定制的基本价值；补充图1显示通过加入诊断任务，认知预测变得更准确。

增强 rigor 与评估模型选择：研究人员报告若干策略（补充章节3–7）以增强严谨性并评估单个模型选择的影响：使用定制Gamma损失而非常规MSE损失显著改善认知预测性能（ΔR²up to 0.05；补充表1）；引入分割GM、WM与CSF体积作为DNN输入进一步增加R²（0.05–0.08；补充表1）；随机化CV：重复20次十折CV（随机参与者顺序）密切反映表2数据（补充表1）；模型选择：XGB被证明优于其他常规ML模型（补充表2），而3DResNet50优于更小3DResNet10（均来自MedicalNet代码库）；超参数调优：通过网格搜索获得DNN最优超参数（补充表4与补充图2）。

纵向认知预测：转向从基线人口统计学与MRI预测未来认知这一临床更有趣但具挑战性的问题，图3a绘制经验与预测ADAS–Cog11变化率（由指数系数α衡量，见“模型架构的损失函数”方法部分），来自集成MedicalNet与UNet。对于纵向部分，研究人员过滤掉MCI或AD参与者中纵向ADAS–Cog显示认知改善者（归因于操作者噪声）。图3b报告按访视月份（12和24个月）CV的认知评分预测，已知基线真实认知评分；未来认知使用上述拟合α与已知基线认知计算。显然，ADAS–Cog11预测高度准确达24个月。图3c描述真实基线认知未知情况；此时未来认知使用上述拟合α与图2预测基线认知估计；即便未知基线，集成模型在24个月仍达到Pearson’s R > 0.7与R²≈ 0.6。图3d显示模型性能随访视月份变化；第18与30个月异常下降与上升可能由于这些访视样本量较小。总体，UNet与MedicalNet在初始访视后达30个月均稳健准确；即便36个月，模型仍显著可预测，R²≈ 0.5，P < 10^?6。这些回归分数是文献中报告最高之一。

特征重要性与可视化：图4a突出人口统计学与组织体积特征（小提琴图）及sMRI（条形）的相对重要性；后者显示显著高于非影像特征的重要性。在标量特征中，年龄、婚姻状况与GM体积是M9与M10预测基线认知最重要的组分，而年龄与受教育年限是使用变化系数α预测未来下降最重要的。接下来研究人员可视化UNet预测认知的每个图像元素重要性，使用所有AD患者平均遮挡图（图4b）。后顶叶、内侧与外侧颞叶及额叶皮层作为热点出现，与AD中认知损害既定神经解剖关联紧密吻合；然而遮挡热点呈广泛多灶分布，且似乎不在粗回边界内均匀发生。图4c区域层面遮挡图显示颞叶与内侧边缘皮层区域评分最高，连同双侧海马与杏仁核，与其在认知功能和AD病理中已知作用一致（补充章节9与补充表5）。研究人员进一步通过此前报道的感受野分析揭示对认知任务贡献的内部模型元素；图4d显示UNet局部感受野特征表示，描述中间特征流形提取。颜色对应伪标签，对回归分数贡献不同；显示三名参与者通道切片以帮助可视化输入查询图像的神经网络“痕迹”。下降臂捕获大致对应组织类的图像水平特征；例如L4显示回归块前最后一层，其集中ADAS预测最重要特征；上升臂捕获与下降臂有些不同特征。

外部样本外测试：研究人员在外部DLBS数据集上对预训练多任务UNet进行样本外测试以预测ADAS–Cog评分（图5a），产生R²0.63，强调所提方法泛化性。图5b描述一名代表参与者分割输出；331名DLBS参与者平均Dice 0.923。除最优模型测试性能外，研究人员在所有模型上测试DLBS数据（补充表6）。结果表明ADNI测试与DLBS测试间存在性能下降；研究人员主要归因于域偏移，因为数据集在扫描仪分布、人口组成与采集参数上不同；例如DLBS中ADAS–Cog11评分范围0–19.3，平均5.2，而ADNI队列平均近10，分布0–42.7（表1）。

基于FreeSurfer容积的替代模型：图5c–e显示两个基于FreeSurfer容积数据训练的基准XGB模型结果。第一个模型训练于7个广泛容积特征，达到平均交叉验证R²0.42，MAE 3.63（图5c）；第二个训练于所有86个Desikan–Killiany分区区域，达到更高交叉验证R²0.53，更低MAE 3.46（图5d）。这些结果相较于直接从T1-MRI扫描训练的最优模型结果不利（图5e）；因此，使用这些耗时且专门的计算机流程并未产生相对于该方法的竞争性能。

讨论部分总结：研究人员开发了多任务集成DNN以同时执行图像分割、预测诊断及预测当前和未来认知评分；后者在AI/ML中未被充分解决，成功少于更易诊断任务。为确保临床采用，仅需单张MRI扫描与常见人口统计学信息。先前神经影像中DL应用被批评为过拟合、差CV、有限样本量、严重维度不匹配与缺乏生物可解释性。为克服这些挑战，研究人员使用审慎混合策略：最大可用样本量之一；从大型预训练模型迁移学习；集成方法；基于领域知识的定制损失函数；以及相邻分割任务诱导的共享表示与正则化。关键发现总结：研究人员在两大公开数据集（ADNI、HCP–YA）训练模型，涉及1,950与1,008名参与者——多于多数可比认知损害研究；通过全面CV，证明同时预测所有三项任务均达最佳水平准确率；尤其认知评分预测明显优于其他测试模型与先前报告。关键发现：最强结果需要最多领域知识驱动定制，而其缺失时性能急剧下降；令人惊讶的是，从头训练定制3D UNet性能可与参数量翻倍的重训练基础MedicalNet模型相媲美，突显定制关键价值；为预测未来认知水平，重用从分割计算的组织层面体素计数，并报告仅用基线影像与人口统计学即可准确预测未来达36个月认知。与许多缺乏可解释性ML模型对比，彻底特征重要性分析揭示sMRI是认知最重要贡献者，其次年龄、婚姻与教育；遮挡分析强调痴呆脑中认知热点（外侧/内侧颞叶、后顶叶、扣带回、海马、杏仁核），多灶且不沿粗回边界；这些热点广泛反映AD病理拓扑学和认知功能经典神经关联，强支持预测模型，并可启发未来探索其他条件下脑–行为关联。研究人员还实现九种替代预测模型（DNN与常规ML），无一与所提模型媲美；同样，次要影像衍生特征（组织体积与FreeSurfer分区）预测性低于所提sMRI框架；最后独立样本外研究（DLBS）证明无需进一步重训练即可泛化。这些数据与基准强支持该方法。

研究人员还讨论先前使用影像数据AI与ML方法：AI/ML/DNN已有效预测AD诊断与向痴呆转化；非常大ResNet模型在MRI上训练给出91.3%分类准确率；多模态CNN在2,861张MRI扫描上训练达到92.01% AUC；使用额外基线模态（如MRI海马形状特征、fMRI特征或PET及广泛人口统计学与临床数据、神经认知测验与APOE状态）可预测转化状态；但通常MRI单独被认为预测性最差之一，对分类增量价值有限，且不支持作为单独附加测试用于痴呆早期诊断。由于认知与脑回路关系极复杂且异质，先前Grand Challenges（如TADPOLE与DREAM）至今未产生好的认知表现预测，即便使用多模态遗传、认知、PET与MRI数据，并报告仅用MRI预测认知无临床价值；MRI衍生容积随时间变化比基线MRI表现更好；MRI生物标志物预测认知的荟萃分析指示预测准确率R约0.2–0.8，平均约0.5。稀疏核方法应用于形态测量MRI特征报告预测基线ADAS–Cog R=0.57；现代ML模型训练于BIOFINDER与ADNI队列容积与非影像特征报告成功诊断但弱预测4年MMSE斜率（测试集R²=0.175，样本外R²=0.044），而原始MRI上DNN更差；支持向量回归报告预测基线ADAS–Cog R=0.61与未来

热点排行