《Cognitive Neurodynamics》:Machine learning for missing data imputation in Alzheimer’s research: predicting medial temporal lobe dynamic flexibility
编辑推荐:
本研究聚焦阿尔茨海默病(AD)早期生物标志物探索,针对神经影像学研究中普遍存在的高缺失率数据难题,系统比较了五种先进的数据填补策略与八种回归模型在预测内侧颞叶(MTL)动态网络灵活性方面的表现。结果表明,在高达25.86%的数据缺失情况下,采用GAIN或MissForest等稳健的填补方法,并结合Bagging Trees/Random Forest等集成树模型,可显著提升预测准确性(MAE降至0.186,CCC提升至0.464),较仅用完整案例的分析有57%的增益。这为利用多模态临床与影像数据进行高缺失率下的可靠预测提供了方法学范例与实证依据。
引言
阿尔茨海默病(Alzheimer's disease, AD)是最常见的痴呆症,其特征是进行性认知衰退和广泛的神经退行性病变。AD的病理变化在临床症状出现前数十年就已开始,因此早期检测对于开发有效的诊断和治疗策略至关重要,尤其是在尚无根治方法的背景下。整合多模态预测因子,利用来自认知、遗传和生化领域的互补信息,为检测AD早期迹象提供了更全面、更准确的手段。
内侧颞叶动态灵活性
内侧颞叶(medial temporal lobe, MTL),特别是内嗅皮层和海马等亚区,是AD中最早发生神经退行性病变的脑区之一。静息态功能磁共振成像(fMRI)显示的功能连接性,在轻度认知障碍、与年龄相关的认知衰退以及AD患者中,MTL内的连接性会增加。这些发现表明,MTL功能连接性可能作为AD早期检测和跟踪疾病进展的有前景的生物标志物。然而,静态功能连接性测量无法捕捉大脑网络交互的动态本质。时变功能连接性可能对AD早期的神经改变具有更高的敏感性。其中一种动态测量指标是网络灵活性,它量化了大脑区域随时间重新配置其连接频率。更高的动态灵活性与人类更好的记忆表现相关。在AD的临床前阶段,MTL网络动态灵活性的改变可能作为病理的早期标志物,与认知衰退相关,并反映潜在的神经退行性病变。因此,本研究旨在预测MTL动态灵活性,这是一个用于认知适应性和有效信息处理的关键标志物。
认知预测因子
老年人通常表现出在将先前学到的知识应用于新情境时MTL动态灵活性降低,这导致了解决问题困难。同样,处于AD临床前阶段的个体也常常表现出将过去经验推广到新情境的能力受损。这些缺陷被认为反映了MTL和前额叶皮层中与年龄相关的变化,这些区域对于跨不同情境整合和传递信息至关重要。在本研究中,通过“鱼类任务”测量的泛化能力被用作MTL动态灵活性的认知预测因子。此外,反映学习初始刺激-结果关联能力的习得表现也被建模为预测因子。习得表现强烈依赖于海马和更广泛的MTL完整性。鉴于MTL动态灵活性反映了大脑响应新认知需求而动态重构的能力,具有更强习得表现的个体可能表现出更具适应性和弹性的MTL网络动态。因此,习得和泛化都被纳入作为MTL动态灵活性个体差异的互补预测因子,以阐明学习过程如何与神经适应性相关联。
遗传预测因子
遗传变异在阿尔茨海默病中起着关键作用,影响易感性和疾病进展。本研究考察了两种AD的遗传生物标志物——载脂蛋白E(Apolipoprotein E, APOE)和ATP结合盒转运体亚家族A成员7(ATP-binding cassette subfamily A member 7, ABCA7)——作为MTL动态灵活性的预测因子。APOE的ε4亚型是晚发性AD最强的已知遗传风险因素,与β-淀粉样蛋白(Aβ)积聚、神经炎症和突触功能障碍相关。相反,ε2亚型似乎具有保护作用,促进Aβ清除并减少tau病理。另一个与AD相关的脂质转运蛋白基因ABCA7,尤其与非洲裔个体的风险升高相关。研究表明,ABCA7调节淀粉样前体蛋白(APP)的加工,影响Aβ肽的生成和清除。ABCA7的功能缺失突变会损害Aβ吞噬作用并促进淀粉样斑块形成——这是AD的病理标志之一。Aβ积聚在临床症状出现前数年就已开始,尤其损害海马和周围MTL区域等与记忆相关的脑区。Aβ破坏突触信号传导,促进氧化应激,并损害结构和功能连接性。这些干扰可能影响大脑的网络动态灵活性,尤其是在MTL。鉴于动态灵活性反映了响应不断变化的需求而转移功能连接的能力,驱动Aβ病理的遗传变异可能导致神经适应性降低。因此,将APOE和ABCA7基因型作为预测因子纳入,以评估它们对临床前AD中动态MTL网络特性的影响。
生化预测因子
细胞内过度磷酸化tau蛋白的积聚,形成神经原纤维缠结,是AD的另一个核心标志。脑脊液(CSF)中tau水平升高可能是响应Aβ而增加的tau磷酸化和神经元分泌的结果,标志着早期的神经退行性变化。基于血液的tau生物标志物,如血浆P-tau181,已被证明与淀粉样蛋白和tau PET成像相关。最近的发现表明,P-tau217在敏感性和特异性方面优于P-tau181,因其与tau-PET相关性更强,提供了更稳健的AD病理标志物。因此,本研究将血浆P-tau217作为生化预测因子。
缺失值处理
AD研究中的一个重大挑战是缺失数据的普遍性,这在临床和神经影像学研究中很常见。在本研究中,这一挑战因多模态设计而加剧:预测因子横跨认知、遗传和生化领域,而结果变量(MTL动态灵活性)源自MRI,因此仅适用于完成成像的参与者。因此,缺失并非均匀分布在所有变量上,并且可能与特定领域的限制相关,使得完整案例分析效率低下且可能存在偏差。缺失数据机制可分为三类:完全随机缺失、随机缺失和非随机缺失。处理缺失数据对于保持研究发现的可信度和有效性至关重要。处理缺失数据的两种常用方法是案例删除和填补。案例删除可以是列表删除,即如果案例有任何缺失值,则删除整个案例;或者是成对删除,通过仅从需要缺失数据的特定分析中排除案例来最小化数据损失。另一种方法是填补,即根据观察到的数据,用预测的估计值替换缺失值,有助于在数据集中保留更多信息。选择适当的方法取决于缺失数据的性质和程度。值得注意的是,本工作中填补的动机不仅仅是“填补”缺失条目,而是在从异质预测因子估计MTL动态灵活性时,保留部分观察到的记录中包含的信息。在多模态AD研究中,完整的案例删除会 drastically 减少有效样本量,并且当缺失与观察到的协变量相关时,可能会扭曲预测因子的分布,从而限制预测模型的普遍性。相反,有原则的填补可以利用跨变量关联来保留信息案例,并稳定下游模型拟合和验证。高达25.86%的缺失率凸显了实施适当缺失数据填补策略的重要性。首先,仅使用少数完整案例进行分析,会因样本量急剧减少而严重限制回归模型的可靠性和普遍性。其次,尽管许多案例不完整,但它们仍包含大量部分信息,可以贡献于统计模型的预测能力和稳健性。通过利用填补技术,可以保留和利用这些不完整但有价值的数据,从而提高分析的整体性能和有效性。鉴于现代填补算法的可用性日益增加及其不同的假设,需要进行比较评估,以确定填补选择如何影响在这一特定环境下下游对MTL动态灵活性的预测。因此,我们对多种已建立的和近期的填补方法进行了基准测试,并评估了每种方法在一致的交叉验证框架下如何影响预测性能。迄今为止,已开发了各种技术来填补缺失值。多重填补链式方程、使用随机森林的填补和生成对抗填补网络是顶级的缺失值填补方法之一。这些技术已有效用于各种医学和临床研究,以解决高缺失率问题。
方法
本部分描述了处理缺失值、拟合回归模型以估计MTL动态灵活性以及评估预测性能的程序。
缺失值处理
使用成对案例删除和五种填补方法处理缺失数据:MICE、MissForest、GAIN、MIWAE和ReMasker。为了支持公平比较和可重复性,填补相关的超参数是使用受限网格或方法推荐的默认值选择的,并且仅应用于训练折叠内,即没有使用来自验证折叠的信息进行调优。
回归模型
评估了五种回归方法:岭回归、k-最近邻、支持向量回归、基于树的集成和人工神经网络。所有超参数均通过网格搜索选择,仅使用训练折叠进行内部3折交叉验证。对岭回归、k-NN和SVR应用标准化缩放,以确保在基于距离和边距的学习中特征幅度的可比性。对ANN输入应用最小-最大缩放至[0, 1]以稳定基于梯度的优化。基于树的模型不使用特征缩放,因为分割标准依赖于特征内部排序而非绝对幅度。所有回归模型均使用scikit-learn v1.6实现。
性能评估
使用5折交叉验证评估模型性能。数据被随机划分为五个大小大致相等的折;在每次折迭代中,四折用于训练,其余一折留出用于验证。完整的5折过程重复25次,使用独立的随机折分配,以获得预测性能和运行时间的稳定估计。预测误差使用平均绝对误差和均方根误差进行量化。为了补充这些基于误差的指标,采用一致性相关系数以量化整体预测一致性。与基于相关性的或方差解释的测量指标如R2不同,CCC联合评估了精度和准确度,这使其特别适合比较应用于二元和连续预测因子混合的不同函数形式的模型。为了获得稳定的性能估计,完整的5折交叉验证过程独立重复了25次,每次都有新的随机折分配。报告了每种缺失数据填补方法和回归模型在这些重复中的平均RMSE、MAE、CCC和计算运行时间。根据观察到的MTL动态灵活性尺度,低于0.1的MAE值被解释为表示高预测准确性,对应于观察范围的小于10%的绝对误差。
材料
共有656名非洲裔个体被纳入本研究。该倡议调查了新泽西州大纽瓦克地区居住的非洲裔老年人中遗传学、认知、健康和生活方式因素之间的关系。所有参与者都是流利的英语使用者,并在参与前提供了书面知情同意书。从所有参与者收集血液样本以测量生物标志物,包括P-tau217。此外,大多数参与者提供了唾液样本,用于评估APOE和ABCA7遗传变异。所有参与者都完成了蒙特利尔认知评估或简易精神状态检查。为确保评估的一致性并实现直接比较,使用描述的方法将MMSE分数转换为MoCA等效分数。使用“鱼类任务”评估参与者的泛化和习得能力,该任务旨在评估学习和记忆,特别是与联想学习和MTL动态灵活性完整性相关。共有224名参与者符合条件并同意参加MRI扫描,占符合条件总样本的34.15%。磁共振成像数据在罗格斯大学脑成像中心的3T西门子TRIO扫描仪上采集。神经影像数据使用AFNI在Linux和Mac OSX平台上进行预处理和分析。使用高级标准化工具将每个参与者的T1加权图像经微分同胚非线性配准变形到内部0.65毫米各向同性模板,并将得到的变换应用于去噪后的功能时间序列,以将所有数据对齐到相同的模板空间。在事先定义的MTL网络内检查动态功能连接,该网络包括七个感兴趣区域。对于每个ROI,提取平均时间序列。时间序列被细分为16个不重叠的窗口。在每个窗口内,ROI对之间的连接性量化为幅度平方谱相干性,产生参与者特定的7×7×16连接矩阵。每个时间窗口被视为多层网络中的一层,层间链接将每个节点与其在相邻时间窗口中的自身连接起来。使用类似Louvain的局部贪婪算法估计社区结构,以优化多层模块性。MTL灵活性量化为每个ROI跨连续窗口的社区分配变化次数,除以可能的总变化次数;MTL动态灵活性测量计算为七个ROI的平均灵活性。
结果
总共有1,866个值缺失,约占数据集的25.86%。当删除有任何缺失值的案例时,仅剩下42个完整案例,表明93.60%的参与者至少有一个缺失值。使用可用的预测因子,在处理好缺失值后,采用了几种最先进的回归技术来建模内侧颞叶动态灵活性。
在分析的第一阶段,仅使用了42个完整案例。在所有评估的模型中,岭回归、Bagging Trees和随机森林表现最佳,平均MAE值约为0.19,这表明预测值与真实MTL灵活性值平均偏离约0.19个单位。与此一致,相应的CCC值仅略高于朴素基线模型的预期值,表明观察值和预测值之间的一致性较差。相比之下,ANN模型表现出最高的MAE。当在所有回归模型中汇总时,平均MAE为0.220,突显了案例删除相关的重大信息损失,并强调了对稳健填补以支持更可靠的下游预测的需求。
在第二阶段,将五种填补技术应用于656个案例的完整数据集以估计缺失值。使用完整数据集进行填补使每种方法能够利用所有变量之间的关联,从而提高对部分观察案例的估计值的准确性。填补后,仅保留具有可用MTL动态灵活性测量值的224个案例用于预测建模。然后使用这224个案例在5折交叉验证框架下拟合和评估回归模型,重复25次,使用不同的随机分割。
在所有回归模型中,表2的结果显示,通过填补处理缺失数据相比案例删除显著提高了预测准确性。案例删除的平均验证MAE始终高于所有填补策略,其中GAIN和MissForest实现了最低的整体MAE值。正如预期,基线回归模型在案例删除下表现不佳,但其误差在所有填补方法中显著且一致地下降。在传统的线性和基于核的模型中,岭回归、k-NN和SVR在应用填补后都显示出有意义的误差减少,最佳配置的MAE值收敛在0.189–0.192左右。这些发现表明,缺失数据策略的选择对下游预测性能有显著影响。
基于树的集成模型,特别是Bagging Trees和随机森林,在MAE方面始终位居表现最佳之列。当与MissForest或GAIN填补结合时,这些模型实现了本研究中观察到的最低MAE,表明在高缺失率条件下具有很强的稳健性。Boosting Trees在填补后也表现出竞争力,MAE值接近Bagging Trees和随机森林。相比之下,ANN模型在所有方法中表现出最高的MAE,尤其是在案例删除下,反映了其对小有效样本量和不完整数据的敏感性。总的来说,填补不仅降低了所有回归模型的预测误差,还使得集成树方法成为MTL动态灵活性最可靠的预测因子。
表3中的CCC结果进一步表明,与案例删除相比,填补显著改善了观察到的和预测的MTL动态灵活性值之间的一致性。在案例删除下,CCC值普遍较低,反映了当分析仅限于完整案例时,预测一致性较差。相比之下,每种填补方法都显著增加了CCC,模型特定增益从中等到显著不等。GAIN在几乎所有回归模型中始终产生最高的CCC值,在每个模型类别中产生最强的一致性。在完整的填补方法集中,基于树的集成模型再次成为一致性方面的最佳表现者。Bagging Trees和随机森林实现了最高的整体CCC值,其中GAIN填补的数据集产生了0.464的峰值CCC——这是本研究中观察到的最强一致性。MissForest和MICE也提供了实质性的改进,尽管程度通常稍低。相比之下,ANN在所有缺失数据策略中显示出最低的CCC,强化了其对有限样本量的敏感性。当跨模型平均时,GAIN实现了最高的整体CCC,其次是MissForest和MICE,突显了在高缺失率条件下,先进填补方法在增强预测一致性方面的明显优势。值得注意的是,GAIN与Bagging Trees/随机森林的结合,相对于表现最佳的案例删除配置,预测一致性提高了54.7%,强调了利用所有可用的部分观察数据的巨大好处。
使用稳健的Scheirer–Ray–Hare ANOVA评估了不同缺失数据处理方法之间预测性能的差异。分析表明,填补策略对预测性能有显著影响,无论是通过平均验证MAE还是平均验证CCC来衡量。所有回归模型都显著优于基线回归模型,并且所有填补方法相对于案例删除都显著改善了MTL动态灵活性预测。在填补策略中,GAIN产生的改进最大,将平均CCC提高了61.81%。其次是MissForest、MICE、MIWAE和ReMasker。尽管有这些增益,但得到的CCC值仍处于差到中等范围,表明即使表现最佳的模型也只能部分捕捉动态MTL灵活性的复杂性。
此外,表4中的填补时间结果显示了不同方法之间计算成本的显著差异,突显了效率和方法复杂性之间的重要权衡。正如预期,案例删除不需要计算时间。在填补方法中,GAIN是最快的,平均在2.46秒内完成所有1,866个缺失值的填补。MissForest也表现出相对高效的性能,平均为3.56秒,而MICE需要更多时间。相比之下,深度生成模型如ReMasker,尤其是MIWAE,计算成本要高得多。这些差异强调,虽然先进的基于神经网络的填补器可能提供理论优势,但与更快速、更轻量的方法如GAIN和MissForest相比,它们付出了显著的计算成本。
最后,表5展示了通过MissForest填补缺失值后变量的汇总统计。变量的分布与原始数据保持一致,保留了范围和集中趋势。填补后数据集的均值和标准差与原始值紧密匹配,表明填补没有引入实质性偏差或失真。这种关键统计特性的保留对于保持变量的可解释性和可比性至关重要,特别是当它们被用作回归模型中的预测因子时。这也表明填补技术有效地填补了缺失值,而没有显著改变数据集的整体结构。
结论
缺失数据处理是多模态临床和神经影像学研究中可靠建模的先决条件,在这些研究中,认知、遗传、生化和MRI衍生变量的不完全采集很常见。在当前数据集中,1,866个值缺失,93.60%的参与者至少有一个缺失值,只有42个完整案例可用于完整案例分析。与高缺失率设置的预期一致,完整案例建模产生了相对较大的预测误差和较低的一致性,神经网络模型的表现尤其差,这些模型通常需要更大的数据集。
除了重申填补可以提高数据效用这一普遍原则外,这项工作的贡献在于量化了特定的填补选择如何传播到下游对MRI衍生的网络生物标志物预测中。评估强调了跨异构回归变量的一致建模框架、重复交叉验证以稳定估计、通过CCC进行基于一致性的评估以及计算运行时间作为临床研究工作流程的实际约束。此外,填补套件包括已建立的方法和现代深度生成填补器,这些在最近的基准测试研究中被报告为具有竞争力。这些设计选择实现了比纯粹的概念性争论更具操作性的比较。
在所有回归模型中,每种填补方法都减少了相对于案例删除的误差,最佳组合实现了0.186的MAE,相对于完整案例平均MAE,预测误差减少了约15-16%。一致性显示出更大的增益:虽然最佳的完整案例模型达到了0.295的CCC,但最高的CCC是GAIN与Bagging Trees/随机森林结合观察到的,代表了预测一致性约57%的改进。这些发现与先前的证据一致,即非参数填补器和集成树模型在具有非线性效应的表格生物医学环境中可以是稳健的。同时,绝对的CCC值仍处于差到中等范围,表明尽管填补后性能有显著改善,但当前模型仍然只能部分解释MTL动态灵活性的变异性。
计算权衡进一步在实践中区分了方法。MissForest和GAIN提供了强大的准确性-效率曲线,而MIWAE和ReMasker的计算要求要高得多。这种模式与更广泛的文献一致,表明深度生成填补器可能有效,但与已建立的方法相比,可能会施加不小的计算开销和调优复杂性。在下游回归中,基于树的集成模型通常优于线性、基于核的和神经模型,强调了将模型复杂度与有效样本量和噪声条件相匹配的重要性。
一些局限性削弱了普遍性并激发了未来的工作。首先,报告的填补-模型组合是在单一队列上评估的;应通过在具有不同招募、成像协议和缺失机制的独立数据集上进行复制来建立外部有效性。其次,虽然MIWAE和ReMasker提供了向最先进比较迈出的有意义的一步,但快速发展的填补模型领域需要在统一的评估标准和相同的下游任务下进行更广泛的基准测试。第三,算法相关的填补器和预测因子之间潜在的耦合可能会影响相对排名;未来的评估可以通过屏蔽观察到的条目并报告填补误差以及下游预测结果来分离填补保真度。
总的来说,结果支持使用稳健的非参数填补策略,特别是MissForest和GAIN,与集成树回归结合,作为在高缺失率设置下对结果进行建模的实用默认方法。尽管这里的实证重点是基于多模态神经影像和临床数据预测MTL动态灵活性,但方法学的见解预计可以推广到依赖异质、部分观察到的表格数据的其他领域。在这种背景下,类似的挑战来自有限的完整案例、非线性关系和混合变量类型,使得有原则的填补和模型-数据对齐同样关键。同时,绝对性能水平和最佳的填补-模型配对可能是数据集依赖的,强调了在独立队列上进行验证和特定应用的基准测试的需求,以建立超出当前神经影像设置的外部有效性。