ComBat-Predict 增强神经影像模型对新站点的通用性

《Human Brain Mapping》：ComBat-Predict Enhances Generalizability of Neuroimaging Models to New Sites

【字体：大中小】 时间：2026年05月22日 来源：Human Brain Mapping 3.3

编辑推荐：

　　神经影像技术在量化典型衰老及神经退行性疾病引起的脑萎缩方面至关重要。为了收集建模全生命周期脑发育所需的大样本，研究联盟通常会汇总在多个研究站点获取的影像。既往研究表明，这种多站点研究设计可能导致与站点相关的偏倚，因此需要对这些“站点效应”进行校正（Harmon

神经影像技术在量化典型衰老及神经退行性疾病引起的脑萎缩方面至关重要。为了收集建模全生命周期脑发育所需的大样本，研究联盟通常会汇总在多个研究站点获取的影像。既往研究表明，这种多站点研究设计可能导致与站点相关的偏倚，因此需要对这些“站点效应”进行校正（Harmonization）。然而，当前的方法无法泛化到原始校正样本之外的新站点，这限制了其向新站点或临床实践的转化。在此，研究人员提出了一种基于 ComBat 站点效应调整方法构建的方法，称为 ComBat-Predict（CB-Predict），其可扩展至来自站点效应未知且样本量较小的新站点的数据。在来自阿尔茨海默病神经影像倡议（ADNI）的数据中，研究人员提出的方法减轻了偏倚，并在将模型泛化到新数据时在预测皮质厚度（Cortical Thickness）测量值方面产生了高精度。此外，研究人员证明，提出的校正方法可以减少使用来自生命周期脑图表联盟（LBCC）的数据估计的百分位分数（Centile Scores）中与站点相关的方差。总之，研究结果表明，CB-Predict 能有效地对新站点进行校正，从而使神经影像模型能够有效地转化到其他样本。

神经影像（Neuroimaging）在量化典型衰老及阿尔茨海默病等神经退行性疾病所导致的脑萎缩方面具有不可替代的作用。为了获取建模全生命周期脑发育所需的大样本量，国际研究联盟通常需要聚合来自多个不同研究站点（Site）采集的影像数据。然而，既往研究已证实，这种多站点（Multi-site）研究设计会引入与站点相关的系统性偏倚（即站点效应，Site Effects），如扫描仪硬件、采集参数及处理流程的差异，因此必须对数据进行校正（Harmonization）。若忽视这些非生物学变异，将显著降低统计效能，掩盖真实的生物学关联，甚至引入假阳性结果。

目前广泛使用的基于经验贝叶斯（Empirical Bayes）缩略估计的 ComBat 方法是神经影像站点校正的主流技术之一，因其在小样本下表现稳健且易于解释。然而，ComBat 及其现有扩展（如 ComBat-GAM、ComBatLS、CovBat、Longitudinal ComBat 以及分布式 d-ComBat 等）存在一个关键局限：它们要求所有站点的数据必须集中在一起进行一次性校正，或者在新队列加入时必须重新运行校正流程，且无法有效泛化到原始校正样本之外的全新站点（尤其是当新站点样本量极小或站点效应未知时）。这严重阻碍了多站点大数据的共享利用以及预训练模型（如预测模型或常模模型）向新临床站点或独立队列的转化应用。例如，在基于生命周期脑图表联盟（Lifespan Brain Chart Consortium, LBCC）数据构建的常模建模（Normative Modeling）中，GAMLSS 方法虽能考虑站点效应，但对新站点估计百分位分数（Centile Scores）时通常要求样本量大于 100，这在实际小样本临床收集中往往难以满足。

为解决上述瓶颈，本研究提出了 ComBat 框架的扩展方法——ComBat-Predict（CB-Predict）。该方法旨在在不访问原始站点数据、无需与新站点进行多次通信、且不要求新站点样本量大的前提下，实现对未知站点效应的新站点数据进行有效校正。该论文发表于《Human Brain Mapping》期刊。

研究人员开展的核心研究是开发并验证 CB-Predict 算法。其关键技术方法包括：基于标准 ComBat 算法流程，首先利用从原始多站点训练数据中拟合得到的整体均值、协变量系数及方法矩估计等参数，对新站点数据进行标准化；随后在新站点内部基于标准化后的数据重新估算加法和乘法站点效应参数，并利用经验贝叶斯框架获得后验估计以完成新站点数据的校正。该框架具有通用性，可结合广义加性模型（GAMs，即 ComBat-GAM formulation）以非线性建模年龄等协变量效应，也可兼容 ComBatLS 等变体。研究分别在 ADNI（阿尔茨海默病神经影像倡议）数据集和 LBCC 数据集上进行验证。ADNI 数据经预处理后得到 505 名受试者来自 64 个站点的 62 个 Desikan-Killiany-Tourville 图谱皮质区域的厚度值；LBCC 数据筛选后得到 12,396 名来自 45 个健康成人研究站点的受试者数据。主要评估实验设计采用留一站点交叉验证（Leave-One-Site-Out）、预测模型泛化误差（RMSE）计算、常模百分位分数分布比较（Wilcoxon 秩和检验及等级双列相关 RBC）以及随机森林诊断分类（AUC）等。

研究结果如下：

3.1 CB-Predict 一致地对来自新站点的数据进行校正

研究人员通过在 ADNI 的 64 个站点上执行留一站点交叉验证来评估 CB-Predict 性能。将 CB-Predict 对留出站点的校正结果与标准 ComBat（等同于 d-ComBat，即所有 64 个站点同时校正）的结果进行比较，使用各区域内受试者平均的均方根误差（RMSE）作为指标。结果显示，在除参考站点外的 63 个评估站点中，62 个皮质厚度区域间的 RMSE 均较低，绝大多数站点（70%，44/63）在所有区域中 CB-Predict 与标准 ComBat 校正后的皮质厚度值无显著差异（配对 Wilcoxon 符号秩检验，Benjamini-Hochberg 校正）。该有效校正对不同测试站点样本量（范围 3 至 20）及站点内阿尔茨海默病诊断比例的变化均表现出稳健性。

3.2 CB-Predict 改善预测模型对新站点的通用性

研究人员进一步考察了对新站点数据应用 CB-Predict 校正是否能提升基于其他来源校正数据训练的预测模型的泛化性能。同样使用留一站点框架，在 63 个 ADNI 站点的 ComBat 校正数据上训练预测皮质厚度的多元线性模型（LM）、GAM 及随机森林（Random Forest）模型，然后在留出站点进行测试。计算预测值与原始未校正观察值之间以及预测值与 CB-Predict 校正后观察值之间的 RMSE。结果显示，跨评估站点及三种预测框架，CB-Predict 校正后的数据得出的 RMSE 明显低于未校正数据，表明对新站点数据应用 CB-Predict 校正能显著提高从不同来源训练的模型推导的预测准确性，从而提升模型通用性。

3.3 校正使参考队列与测试队列间的常模分数对齐

为评估基于 LBCC 构建的常模模型应用于独立 ADNI 队列的效果及测试集校正的影响，研究人员针对 62 个皮质厚度区域生成了 ADNI 诊断组（认知正常 CN、晚期/轻度认知障碍 LMCI、阿尔茨海默病 AD）的百分位分数，并与参考 LBCC 对照组比较。直接将常模模型应用于未校正的 ADNI 数据时，ADNI CN 组的百分位分数表现出明显的偏离（预期应为以 0.5 为中心的均匀分布）及增加的方差，提示存在残留站点效应干扰。而在使用基于 LBCC 的 ComBat 拟合参数通过 CB-Predict 校正 ADNI 数据后再应用同一常模模型，健康组间的对齐可见改善，ADNI CN 的百分位分数更集中于 0.5 且区域特异性偏倚减少，表明 CB-Predict 校正大幅减少了与站点相关的异质性。

3.4 CB-Predict 校正减少健康对照组间的异质性

为定量评估校正减少参考（LBCC）与测试（ADNI）健康队列间异质性的程度，研究人员对每个皮质区域使用 Wilcoxon 秩和检验比较 LBCC 健康对照与 ADNI 健康控制的百分位分数分布，并使用等级双列相关（Rank Biserial Correlation, RBC）量化效应量。分别基于未校正和 CB-Predict 校正后的 ADNI 百分位分数进行计算，结果发现未校正数据得出的 RBC 值（黄色点）幅度明显大于校正后数据（蓝色点），证实应用 CB-Predict 校正显著减少了来自新研究站点健康受试者的常模百分位分数分布与更大参考群体间的异质性。

3.5 CB-Predict 校正使用百分位分数增强诊断分类

研究人员进一步评估了校正对使用百分位分数作为特征区分 AD 与 CN 的诊断分类的影响，使用随机森林模型及站点水平 10 折交叉验证。结果显示，校正后的百分位分数（平均 AUC = 0.85 ± 0.02）相比未校正分数（平均 AUC = 0.77 ± 0.04）表现出显著更高的分类性能（p = 0.004），表明在校正新站点后，脑图表在区分阿尔茨海默病与正常衰老方面的判别能力得到增强。

3.6 敏感性分析：线性模型（LM）公式

研究人员检验主要发现是否对协变量模型复杂度敏感，使用线性模型（LM）公式替代 GAM 年龄样条公式重复分析。在 LM 公式下，CB-Predict 仍产生一致的低样本外校正误差（所有留出站点 RMSE 不超过 0.04 mm），且无显著差异的站点比例更高（94% vs GAM 的 70%）。预测建模和常模建模分析得出与 GAM 方法可比的结果，证明主要结论对协变量模型复杂度的选择具有稳健性。

3.7 CB-Predict 对协变量偏移及新站点样本量的敏感性

通过模拟数据集，研究人员观察到 CB-Predict 对新站点样本量变化及训练与测试样本间协变量效应适度偏移高度稳健。假设年龄效应恒定，当新站点样本量从 5 增加到 100 时，样本外校正误差保持较低（中位 RMSE < 0.03 mm）。此外，CB-Predict 对年龄效应偏移表现出高稳健性，即使偏移达到参考数据中平均效应的两倍，RMSE 仍保持较低；仅在极端协变量偏移下才出现校正误差的显著增加。

讨论部分总结：

研究人员在讨论中指出，CB-Predict 能够在无需访问原始站点数据的情况下对新站点进行校正，并通过与常规集中样本 ComBat 校正及 d-ComBat 比较验证了其性能。留一站点实验表明 CB-Predict 一致地校正先前未见站点数据，有效近似标准 ComBat 结果，且在各种站点样本量和受试者诊断组成下维持高性能。此外，研究人员验证了 CB-Predict 在预测模型和常模模型向新站点泛化中的应用价值：在预测模型中，CB-Predict 降低了基于先前校正数据训练模型的预测 RMSE；在常模模型中，CB-Predict 提升了新站点百分位分数与参考群体可比性，减少了健康对照间异质性，并使认知受损与正常个体的百分位分数差异更显著。相比现有样本外校正方法，CB-Predict 具有多项优势：相较 d-ComBat 消除了跨站点多次通信需求；相较 NeuroHarmony 更准确近似样本内 ComBat 结果；相较 Bethlehem 等基于 GAMLSS 方法（要求新站点样本 >100），CB-Predict 在极小样本（如 n < 5）下亦可准确估计站点调整，且不假设跨站点特征分布相同，支持更广泛的下游应用（输出校正后脑指标而不仅是百分位分数）。

同时，研究人员也承认了若干局限：主要分析仅在 ADNI1 进行，未来需在 ENIGMA 等更多样化数据集评估；协变量模型公式选择可能影响性能（过灵活模型可能在某些年龄范围过拟合协变量效应）；CB-Predict 继承了标准 ComBat 跨站点共同协变量效应假设，尽管模拟显示仅在极端偏移时受影响，但应用于与训练数据生物学特征显著不同的样本时需谨慎；当前尚未评估其在 ComBatLS 等其他变体的具体表现；此外，研究使用单一回归方法生成百分位分数，未来可探索对其他标准化方法（如分位数回归、层次建模、VAE 等）的影响。

结论翻译：

在当前研究中，研究人员提出并验证了 CB-Predict 用于新站点的校正，且无需访问原始站点数据。通过将 CB-Predict 与常规集中样本 ComBat 校正及 d-ComBat 进行比较来评估其性能。使用 ADNI 数据的留一站点实验显示，CB-Predict 一致地校正来自先前未见站点的数据，有效近似标准 ComBat 及 d-ComBat 达成的校正。研究人员证明这种高性能在各种站点样本量及受试者诊断下均保持。此外，研究人员验证了 CB-Predict 在预测模型和常模模型向新站点泛化中的应用。在预测建模中，结果表明对新站点应用 CB-Predict 降低了基于先前校正皮质厚度数据训练的预测模型的 RMSE，表明应用 CB-Predict 增强了预建立模型预测到新站点数据的准确性和通用性。在常模模型中，实验表明 CB-Predict 极大改善了新站点百分位分数与更大参考群体百分位分数的可比性。检查基于和谐健康数据（LBCC）训练并应用于独立队列（ADNI）的常模模型，观察到健康对照间百分位分数的站点相关异质性减少及对齐改善；此外，有无认知损伤的个体百分位分数差异变得更可观。CB-Predict 提供了若干区别于现有样本外校正方法的优势。虽然 d-ComBat 保护隐私，但仍需研究站点间多次通信；CB-Predict 完全消除了该需求，使其在严格数据共享限制下特别有价值。不同于同样避免跨站点共享的 NeuroHarmony，CB-Predict 产生更准确的站点效应估计，更接近样本内 ComBat 结果。此外，与 Bethlehem 等提出的基于 GAMLSS 方法（要求新站点样本量高于 100 以估计新站点百分位分数）相反，CB-Predict 即使在极小型样本量（如 n < 5）下也能准确估计站点调整，且不假设跨站点共同特征分布，在随机效应异质时提供稳健替代。最后，通过输出校正后脑测量值及百分位分数，CB-Predict 支持更广泛的下游应用。总之，研究人员提出 CB-Predict 作为 ComBat 方法的扩展，允许对站点效应未知且样本量小的新站点进行校正。该方法通过潜在避免为新站点数据与现有数据池化以进行校正的需求，惠及影像研究实践。随着目前神经影像对多站点研究的需求，CB-Predict 减少站点相关方差的能力将有助于稳健分析、提升预测模型到新数据集的通用性，以及新队列与参考队列间常模分数的对齐。

热点排行