正则化张量分位数回归及其在神经影像数据分析中的应用

《Statistics in Medicine》:Regularized Tensor Quantile Regression With Applications to Neuroimaging Data Analysis

【字体: 时间:2026年05月20日 来源:Statistics in Medicine 1.8

编辑推荐:

  研究人员提出了一种带有标量响应和张量值协变量的正则化线性分位数回归模型。该模型的独特之处在于,通过对张量效应的低维分解所得到的张量估计本身施加正则化,而非直接对该分解的参数施加惩罚。研究人员建立了所提算法与估计量的计算性质和统计性质,由于分位数损失函数的特殊性

  
研究人员提出了一种带有标量响应和张量值协变量的正则化线性分位数回归模型。该模型的独特之处在于,通过对张量效应的低维分解所得到的张量估计本身施加正则化,而非直接对该分解的参数施加惩罚。研究人员建立了所提算法与估计量的计算性质和统计性质,由于分位数损失函数的特殊性,这两类性质的推导均需单独处理。模拟研究表明,当传统回归假设被违反时,该模型相较于现有张量框架表现出更优的性能。一项真实世界的神经影像分析进一步凸显了该方法的解释性优势。
该研究由M.P.和D.Y.等人完成,发表于《Statistics in Medicine》。研究针对神经影像等高维张量数据回归中存在的维度灾难、忽略体素间相关性以及对异常值和异方差敏感等问题,提出了一种正则化张量分位数回归框架。传统方法通常将张量向量化后回归,不仅维度过高且破坏了数据结构;两阶段法先分解再回归,无法保证特征对响应的预测性;现有的广义线性张量均值回归在面对非正态、偏态或重尾数据时表现不佳。为此,研究人员构建了基于条件分位数的回归模型,能够同时建模标量协变量和张量协变量对响应变量特定分位数的影响,对异常值和误差异方差具有鲁棒性。研究结论表明,该方法在重尾误差分布下优于传统均值回归,且在神经影像分析中能有效识别与认知功能相关的脑区,具有重要的临床应用潜力。
在技术方法上,研究人员采用了低秩Tucker分解对高维张量效应进行降维,并通过广义Huber函数对不可导的分位数损失进行平滑处理以解决优化难题。算法层面采用块松弛(block relaxation)策略交替更新截距项、标量系数、核心张量及各因子矩阵,并结合梯度下降与Barzilai–Borwein自适应步长进行求解。正则化方面创新性地通过对估计出的张量效应本身施加惩罚(如融合Lasso)而非直接惩罚分解成分,以增强结果的可解释性。样本队列来源于阿尔茨海默病神经影像计划(ADNI),包含患者的临床量表评分及海马体结构磁共振影像数据。
研究结果部分如下:
2 张量分位数回归
2.1 模型估计与分位数损失平滑
研究人员定义了标量响应与张量协变量的线性分位数回归模型。为解决分位数损失函数不可导导致无法使用常规梯度下降的问题,引入了广义Huber函数作为平滑近似,保证了算法的可导性。
2.2 Tucker分解
为应对张量效应参数的高维性,研究人员假设张量系数服从低秩Tucker分解结构,将高阶张量分解为核心张量与各模态因子矩阵的外积组合,大幅减少了待估参数数量。
2.3 算法
基于块松弛思想,研究人员设计了循环更新参数的算法。每次迭代固定其他参数块,仅优化当前参数块,利用平滑后的损失函数在当前块上的凸性进行高效求解,并通过贝叶斯信息准则或交叉验证选择分解秩。
2.4 正则化
区别于以往对分解成分(核心张量或因子矩阵)直接惩罚的方法,研究人员提出对估计得到的张量效应整体施加正则化。这种间接正则化方式允许灵活应用Lasso或融合Lasso等惩罚项,更利于识别空间关联模式,减少过拟合。
3 模型与估计量性质
3.1 算法收敛性
研究人员证明了在平滑参数趋于零的序列下,算法具有全局收敛性。在局部区域,当残差足够小时,算法具有线性收敛速度,且该性质在加入凸惩罚项后依然成立。
3.2 得分、信息与可识别性
通过将分位数回归与独立同分布的非对称拉普拉斯分布的对数似然最大化相联系,研究人员推导了平滑损失下的得分函数与Fisher信息矩阵。通过在受限参数空间内分析,确立了模型在满足一定条件下具有局部可识别性。
3.3 一致性与渐近正态性
基于经验过程理论,研究人员证明了张量效应估计量具有一致性,即在样本量趋于无穷时收敛于真实值。同时,估计量服从渐近正态分布,为后续的统计推断提供了理论基础。
4 数值研究
4.1 模拟研究
在多种误差分布(正态、T分布、柯西分布)下进行的模拟显示,当误差为正态时,该模型与传统广义线性张量模型性能相当;但在重尾的柯西分布下,该模型表现出显著更高的估计精度和预测稳健性。正则化有效去除了背景噪声,使真实信号更易辨识。
4.2 神经影像数据分析
研究人员将模型应用于ADNI数据集,以简易智力状态检查量表(MMSE)评分为响应变量,以海马体的表面形态测量指标(包括径向距离和三种多变量张量形态测量mTBM特征)为张量协变量。未正则化的估计结果噪声极大且无解释性,而采用融合Lasso正则化后,成功识别出海马体表面上与认知功能呈正负关联的特定区域,且结果不受参数化网格限制,具有良好的生物学意义。
在讨论部分,研究人员指出,通过对张量效应本身进行正则化,虽然牺牲了部分进一步的降维能力,但极大地提升了结果的解释性,这对于需要定位病灶区域的医学影像研究至关重要。未来的工作可探索自由导向的块松弛算法、残差依赖的平滑参数更新规则,以及结合贝叶斯框架处理稀疏功能型张量数据。研究证实,正则化张量分位数回归是一种稳健且可解释的统计工具,特别适用于神经影像等存在复杂结构和高噪声的数据分析场景。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号