《Statistics in Medicine》:Multi-Level Variable Selection Using a BART-Enhanced Mixed-Effects Framework
编辑推荐:
在医疗健康研究中,数据常因来源于多个集群而呈现层级结构,筛选重要的个体层面与集群层面预测因子已成为关键任务。传统多层级变量选择方法多基于参数假设,在非线性关系及交互作用场景下存在局限。现有非参数方法虽在无聚类数据中表现良好,但在多层级场景下的研究仍不充分,且多
在医疗健康研究中,数据常因来源于多个集群而呈现层级结构,筛选重要的个体层面与集群层面预测因子已成为关键任务。传统多层级变量选择方法多基于参数假设,在非线性关系及交互作用场景下存在局限。现有非参数方法虽在无聚类数据中表现良好,但在多层级场景下的研究仍不充分,且多数未同时实现个体与集群层面的变量选择。针对上述问题,研究人员提出了一种灵活的完全贝叶斯统一框架,用于固定效应与随机效应的同步变量选择。该框架将贝叶斯加性回归树(BART)的非参数灵活性与层级贝叶斯分量相结合,通过协方差分解与置换策略识别随机效应预测因子。针对集群层面协变量在集群内恒定所引发的近多重共线性与选择不稳定性,研究人员进一步提出计算高效的两步流程,解耦个体与集群预测因子的贡献,提升选择稳定性。综合模拟实验验证了所提方法在不同场景下的有效性与稳健性,阿尔茨海默病多层级数据集的实际应用进一步展示了方法的实用价值。
研究背景与意义
在多站点医疗健康研究中,数据普遍具有层级结构,同一集群内的观测值存在相关性,不同集群间存在异质性。传统混合效应模型通过固定效应刻画个体层面协变量的平均效应,通过随机效应刻画集群层面的变异,但其变量选择多依赖参数假设,难以捕捉复杂的非线性关系与交互作用。现有基于树模型的方法如贝叶斯加性回归树(BART)虽在固定效应选择中表现优异,但多数面向预测任务,缺乏对随机效应结构的系统性选择机制,且在集群层面协变量恒定不变时,易与随机截距产生近多重共线性,导致选择结果不稳定。因此,研究人员亟需发展兼具非参数灵活性与严格推断能力的多层级变量选择方法,以同时识别个体与集群层面的关键驱动因素。该研究发表于《Statistics in Medicine》,为多层级数据分析提供了新的统计工具。
关键技术方法
研究人员首先构建了BART增强的统一混合效应模型,采用改进Cholesky分解对随机效应协方差矩阵进行参数化,结合尖峰-板条(spike-and-slab)先验实现随机效应的精确排除。针对集群内恒定协变量的近多重共线性问题,设计了两步法流程:第一步拟合仅含随机截距的BART模型,提取集群随机截距的后验均值;第二步将其作为响应变量,对集群层面协变量进行置换校正的变量选择。研究采用综合模拟实验设计,涵盖平衡与非平衡集群、线性与非线性固定效应、集群层面协变量可变与恒定等8种场景,并与惩罚拟似然(PQL)等方法进行对比。案例研究基于新泽西州社会健康决定因素(NJ SDOH)数据库与非洲裔美国人健康老龄化路径(Pathways)研究数据,纳入400名60岁以上受试者,覆盖79个邮政编码与24个城市区域,分析认知功能的个体与社区层面影响因素。
研究结果
2 方法学
2.1 符号定义
研究人员定义了层级数据结构的标准符号体系,明确个体层面协变量矩阵Xi、集群层面协变量矩阵Zc与响应变量yij的数学表达。
2.2 统一模型
研究人员将BART嵌入混合效应框架,通过变量包含比例(VIP)、类型调整VIP、Metropolis重要性(MI)与稀疏Dirichlet先验四种指标评估个体层面变量重要性。对于集群层面选择,通过对随机效应协方差矩阵的对角元素施加尖峰-板条先验,结合置换检验计算Lambda正性得分(LPS),实现随机效应的显著性判断。
2.3 两步法
研究人员针对集群内恒定协变量场景,提出两步解耦策略。第一步估计集群随机截距,第二步对其开展独立的置换校正选择,有效避免了近多重共线性导致的选择偏差。该方法具有模块化特性,可灵活替换Step 1与Step 2的具体模型形式。
3 模拟研究
3.1 模拟设计
研究人员采用2×2×2因子设计,系统评估不同数据特征下的方法性能。
3.2 实施细节与评价指标
采用召回率、精确率、F1分数与I型错误率作为核心评价指标,每场景重复250次模拟。
3.3 模拟结果
当集群层面协变量在集群内变化时,统一模型实现了接近完美的随机效应选择(F1=1.00),显著优于PQL。当协变量恒定不变时,统一模型因近多重共线性导致I型错误率升高至0.56,而两步法则保持了稳定的选择性能(F1=0.88)。稀疏Dirichlet方法在计算效率上具有优势,但选择精度略低。
3.4 敏感性分析
研究人员验证了方法对噪声随机预测因子数量、置换阈值、个体层面协变量维度与残差噪声水平的稳健性,两步法在所有场景中均表现出可靠的选择能力。
4 案例研究
研究人员将方法应用于阿尔茨海默病风险预测,识别出体重指数(BMI)与最大摄氧量(VO2max)为核心个体层面预测因子。在城市层面分析中,两步法额外筛选出中位家庭收入(ACS_MEDIAN_HH_INC)与残疾人口比例(ACS_PCT_DISABLE)等社区层面因素,而PQL未选出任何集群层面变量。预测性能评估显示,所提方法的期望对数逐点预测密度(elpd_loo)均优于PQL。
讨论与结论
研究人员指出,统一模型适用于集群层面协变量变化的场景,而两步法在协变量恒定的常见医疗研究场景中表现最优。方法的模块化特性允许研究人员根据固定效应的复杂度灵活选择Step 1模型,例如在线性关系下采用贝叶斯线性混合模型可进一步提升选择精度。尽管两步法在小样本且固定效应为线性的极端场景下性能有所下降,但其整体稳健性仍显著优于传统方法。该研究为多层级变量选择提供了从理论框架到实际应用的全套解决方案,未来可进一步扩展至二分类结局、非参数随机效应建模与缺失数据处理等方向。研究代码已开源,为相关领域学者提供了可直接使用的分析工具。