潜在功能PARAFAC模型:面向稀疏不规则多维纵向数据的功能性张量分解新方法

《Psychometrika》:Latent Functional PARAFAC for Modeling Multidimensional Longitudinal Data

【字体: 时间:2026年01月28日 来源:Psychometrika 3.1

编辑推荐:

  本文针对心理测量学、医学等领域中常见的具有内在平滑结构的高维功能张量数据,提出了一种潜在功能PARAFAC(LF-PARAFAC)分解方法。该研究通过引入概率潜在模型和基于协方差的块松弛算法,有效解决了稀疏、不规则采样场景下的张量分解难题,并在阿尔茨海默病神经成像倡议(ADNI)数据的多维度神经认知标记物分析中成功应用,为刻画疾病进展提供了新视角。

  
在心理测量学、行为科学和医学研究中,随着数据采集技术的进步,研究人员越来越频繁地接触到一种特殊类型的数据——多维纵向数据。这类数据通常被组织成高阶张量(tensor)的形式,例如,在阿尔茨海默病(AD)研究中,可能包含受试者×时间点×神经认知标记物三个维度。与传统矩阵数据相比,张量能更自然地保留数据的多维结构信息。然而,这种高维数据结构也带来了巨大的分析挑战。更复杂的是,纵向数据通常具有时间连续性,这意味着张量的某一个维度(通常是时间维)蕴含着潜在的光滑函数结构。同时,由于数据是通过抽样获取的,张量往往还有一个“样本”维度,该维度上的每个子张量可以看作是从某个随机张量分布中抽取的样本。如何同时捕捉数据的这种光滑性、随机性以及高维特性,是当前统计学和生物医学信息学面临的一个前沿难题。
现有的分析方法在处理这类问题时往往捉襟见肘。经典的PARAFAC(平行因子分析)张量分解方法虽然能有效降维,但并未充分考虑数据点沿时间维度的光滑特性。传统的函数型数据分析(FDA)方法,如函数主成分分析(FPCA),擅长处理光滑的函数曲线,但将其直接应用于向量化后的张量数据会破坏其内在的多维结构,且计算上难以应对维度灾难。尽管已有研究尝试在张量分解中加入平滑惩罚项或扩展函数奇异值分解(SVD)到张量,但这些方法通常无法很好地处理实际研究中常见的稀疏、不规则采样数据,也缺乏坚实的概率模型基础。因此,开发一个能够统一处理具有内在平滑结构和随机性的功能张量的通用、灵活框架,具有重要的理论价值和现实意义。
为了回答这一挑战,本文提出了一种全新的潜在功能PARAFAC(Latent Functional PARAFAC, LF-PARAFAC)模型。该研究的核心创新在于将经典的PARAFAC分解扩展到功能张量领域。简单来说,研究者不再将张量中的每个元素视为独立的数值,而是将其看作一个函数(例如,随时间变化的神经认知评分)。LF-PARAFAC模型旨在将一个高维的功能张量分解为一组低维的函数和特征矩阵的组合。具体而言,该模型将随机功能张量表示为一系列秩为1的功能张量的加权和,其中每个秩1张量由各模态的特征向量和一个共享的潜在函数构成。为了更有效地捕捉数据背后的随机性,模型还引入了一个概率潜在变量,用以解释样本间的变异。
这项研究发表于心理测量学领域的顶级期刊《Psychometrika》,标志着该方法在理论严谨性和应用潜力上获得了学界的认可。
为了实现对模型参数的估计,研究人员发展了一套基于协方差估计的求解算法。该技术的核心在于利用所有观测数据来估计功能张量不同条目之间的(交叉)协方差曲面。即使数据存在大量缺失(如受试者访视时间点不一致),该方法也能通过局部线性平滑等技术稳健地估计出这些协方差函数。基于估计出的协方差结构,算法采用一种块松弛(block-relaxation)策略交替更新模型中的参数,包括各模态的特征矩阵、潜在函数以及潜在变量的协方差结构。这种方法的一个关键优势是它不要求每个受试者在相同的时间点上有密集的观测,因此非常适用于ADNI这类实际纵向研究场景。
研究结果部分通过严谨的数学推导和大量的实验验证了所提方法的有效性。
模型可识别性条件:研究首先从理论上探讨了LF-PARAFAC模型的可识别性问题,即模型参数能否被唯一确定。论文给出了确保模型可识别的一组充分条件,主要涉及各模态特征矩阵的k-秩(k-rank)条件以及函数空间的维度假设。这为模型结果的稳定性和可解释性提供了理论保障。
模拟研究验证:通过广泛的模拟实验,研究者将LF-PARAFAC与标准PARAFAC、功能张量SVD(FTSVD)以及多元函数主成分分析(MFPCA)等方法进行了比较。结果表明,在信噪比较低、数据稀疏程度较高的挑战性场景下,LF-PARAFAC在重构原始张量和恢复真实参数方面均表现出显著优势,尤其是在准确估计潜在的平滑函数方面。
ADNI数据应用:研究将LF-PARAFAC应用于ADNI数据集,该数据集包含888名受试者(包括认知正常者和AD患者)在6种神经认知标记物(如ADAS、MMSE、RAVLT等)上长达多年的纵向观测。分析成功提取出4个有意义的成分。第一个也是最重要的成分,清晰地反映了受试者整体的认知水平,其得分在AD患者和认知正常者之间区分度极高。第二个成分捕捉了某些认知指标(如LDEL)在随访第一年先升后降的动态模式。第三和第四个成分则揭示了在随访后期出现的、更细微的认知变化趋势。通过分析不同成分得分对应的受试者特征,该方法为理解AD疾病进程中异质性的认知变化轨迹提供了新的洞察。
归纳本研究的研究结论与讨论,LF-PARAFAC模型的重要意义在于它首次为分析具有内在平滑结构的随机功能张量提供了一个统一的概率框架和有效的计算工具。它巧妙地融合了张量分解的降维能力、函数数据分析处理光滑曲线的能力以及概率模型刻画随机性的能力。其能够处理稀疏、不规则采样数据的特点,使其在心理学、神经科学、医学等领域的实际纵向研究中具有广阔的应用前景。例如,在AD研究中,该方法不仅能更准确地刻画疾病进展的动态模式,还有可能识别出不同的疾病亚型。未来研究可进一步将该框架扩展到包含协变量的监督学习 setting、更高阶的张量结构,或假设协方差结构可分离(separable)以提升计算效率,从而在愈发复杂的高维生物医学数据中挖掘出更深层次的科学规律。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号