高维数据下高斯图模型的参数空间导航:方向检验及其在乳腺癌亚型中的应用

《Biometrical Journal》:Signpost Testing to Navigate the Parameter Space of the Gaussian Graphical Model With High-Dimensional Data

【字体: 时间:2026年02月16日 来源:Biometrical Journal 1.8

编辑推荐:

  本研究介绍了一种用于高斯图模型的“方向检验”(Signpost Test),旨在评估外部知识(如图模型参数的目标提议)对当前高维数据建模的参考价值。该方法通过检验从“零信息”基准到外部提议参数的“方向”是否指向真实参数,来指导研究者是否应借鉴相关领域的信息。文章以乳腺癌ER-亚型的基因互作网络重构为例,展示了如何利用ER+亚型的估计精度矩阵作为外部知识,验证了该检验在提高网络推断效率和稳定性方面的实用性。

  
引言
细胞调控通路通常由随机图模型描述。这些模型将通路描绘为网络,其中节点代表通路中的实体,连接节点的边对应于节点间的分子相互作用。网络拓扑结构编码在图模型的参数中。模型参数及其网络拓扑通常需要从高维数据中从头学习。除了高维性带来的挑战外,我们未必需要从零开始。关于通路运作的知识通常可以从相关的疾病、背景或模型生物中获得。本研究提出了一种检验方法,用于评估这些知识对当前环境的适用性。
我们考虑来自高斯图模型的数据,其模型参数Θ是精度矩阵,它来自p维对称正定矩阵的空间。精度矩阵的支撑集编码了该模型变量之间的条件(独立)依赖性。具体来说,如果Θjk= 0,则变量Yj和Yk在给定所有其他变量的条件下是独立的。同时,Θ的非零非对角线元素表示相应变量对之间存在条件依赖关系。
从高维数据中学习高斯图模型旨在重建条件(独立)依赖关系,这是一个具有挑战性的估计和多重检验问题。尽管已有正则化和多重检验程序等方法,但由此推断出的网络拓扑结构往往不稳定。本研究介绍一种促进对高斯图模型进行更“全局”但仍有建设性推断的检验方法。
我们的检验假设从相关领域可以获得关于所研究现象的知识,并评估这些知识对当前环境的信息价值。例如,如果我们旨在重建一种罕见癌症亚型的通路调控网络,那么来自同一组织不同、更普遍且经过充分研究的亚型知识可能对我们的工作有益。我们假设有两个提议,记为T0和T1,可作为精度矩阵Θ的候选值,它们来自相关领域。提议T0代表对精度矩阵的当前认知,可能代表知识的缺乏(例如一个不包含任何条件依赖关系的对角矩阵)。提议T1则是一个竞争性的提议,例如来自不同且更普遍的癌症亚型。我们将从T0到T1的方向称为“方向”。相应的检验则称为“方向检验”,用于评估对于当前环境,这个“方向”是否指向精度矩阵的真实值。
检验统计量
假设我们有n个独立同分布的高斯图模型数据样本。设T0和T1分别是精度矩阵的空假设和备择假设提议。我们旨在检验数据是否支持从T0指向T1的这个“方向”能指向Θ的真实值。我们假设Θ = (1-α)T0+ αT1,它是两个精度矩阵的加权平均。这可以看作是连接精度矩阵T0和T1的线段上的一个点。其中,α量化了Θ在“方向”上距离T0有多远。方向检验评估空假设H0: α = 0 对备择假设H1: α > 0。拒绝H0并不意味着提议T1优于T0,而只是表示在T1的方向上可以找到更好的参数值。同样,未能拒绝也不意味着精度矩阵等于T0,只是数据不支持在寻找更好参数值时向T1方向移动。
我们的检验统计量基于双靶向岭(ridge)精度矩阵估计器。该估计器通过最大化对数似然并附加一个以两个目标(提议)加权平均为中心的岭惩罚项来获得。形式上,该估计器被定义为:
其中S是样本协方差矩阵,λ是惩罚参数,ω是权重参数。该估计器有解析表达式。交叉验证的ω会将大部分权重放在真实的目标上。因此,ω是决定两个提议之间优劣的一个良好度量。
我们将方向检验统计量定义为使对数似然达到最佳的ω值。我们主要关注对应于λ→∞极限的检验统计量,记为α。它避免了选择λ的问题,并且在岭回归的背景下,能产生最有效的检验。形式上,在正则化极限下,估计器收敛到加权目标。将其代入对数似然并选择使似然最大化的α,该α就是我们的检验统计量α
该检验统计量可以高效地进行数值评估,并且可以通过命题确定其搜索边界。此外,在真实参数位于两个目标连线上的假设下,检验统计量α是α的渐近无偏估计量,可以解释为在搜索真实精度矩阵时沿“方向”前进的“步长”。模拟结果(如文中Figure 1所示)表明,即使在有限样本量下,α∞也围绕真实α值分布,验证了其作为度量指标的有效性。
方向检验
方向检验评估从空目标到备择目标的方向是否包含关于高斯图模型参数的相关信息。该方向由线段(1-α)T0+ αT1(α ∈ [0,1])参数化。检验通过检验H0: α = 0 对 H1: α > 0来进行。拒绝H0表明在从T0到T1的方向上可以找到关于真实模型参数的有价值信息。未能拒绝原假设并不意味着T0就是模型参数的位置,因为该参数可能位于T1以外的其他方向上。
方向检验使用α作为检验统计量。在H0假设下,α是量化“方向”信息量的良好度量。检验通过参数自助法(bootstrap)生成检验统计量的零分布,并将观察到的检验统计量与之比较以获得p值。此外,基于检验统计量作为α近似无偏估计的性质,还可以构建近似的置信区间。
一个近似的方向检验
本节提出了一种基于近似方向检验统计量的替代检验,其渐近分布已知,可以直接计算超过概率,从而避免了原方向检验中可能计算量大的零分布生成过程。
我们通过线性化原检验统计量方程来获得近似检验统计量αa。该近似统计量同样使用数据中的证据来衡量真实精度矩阵在备择目标方向上距离空目标矩阵有多远。命题表明,如果Θ = (1-α)T0+ αT1,则αa是α的近似无偏估计,特别是在α接近零时偏差很小,这使其适合检验H0: α = 0。
近似检验统计量αa的零分布在渐近意义下已知,它涉及样本协方差矩阵S的迹的线性组合的分布。在高斯假设下,S服从Wishart分布,该迹的渐近分布已被表征(Fujikoshi, 1970)。这一知识使得我们可以进行参数检验。即使在较高维度下,模拟证据也表明该参数检验与原检验具有可比性的效力。
检验性能
我们通过模拟评估了提出的方向检验(使用统计量α、αa以及有限λ对应的统计量)的效力。评估考虑了不同的样本量n、维度p、效应大小α以及条件依赖图拓扑(如均匀、带状、星型、无标度等)。同时,我们还评估了方向检验在违反其关键假设(即真实参数是两个提议的加权平均)时的稳健性。
模拟结果显示:
  1. 1.
    第一类错误在构造上得到了良好控制。
  2. 2.
    检验效力随样本量和/或效应大小的增加而提高,这是有效检验应有的性质。
  3. 3.
    检验效力受益于精度矩阵维度的增加。这可以直观理解为:随着维度增加,空目标和备择目标之间不同的元素数量增加,提供了更多能体现非零α效应的位置,从而增强了检验检测非零α的能力。不同元素之间差异的绝对大小也会影响效力的增益。
  4. 4.
    对于有限λ的检验统计量,其效力略低于使用α统计量的检验。因此,优选使用α统计量的方向检验,它效力更好,且避免了选择λ的问题。
  5. 5.
    即使备择提议存在(轻微)误设,即真实参数不在从T0到T1的连线上,方向检验仍具有相当的效力,表明它能够检测到沿其“方向”探索是否值得。
与似然比检验的比较
我们将方向检验与似然比检验(LRT)进行比较。当α ∈ [0,1]时,这两种检验的统计量是一一相关的(LRT统计量是-2logΛ)。不同的检验统计量会带来不同的零分布。比较模拟结果显示,LRT的第一类错误存在膨胀,这质疑了其渐近χ2分布作为零分布的适用性。此外,在效力方面,LRT与方向检验不相上下。
同时,使用近似检验统计量αa及其渐近分布的方向检验,其第一类错误控制良好,效力曲线与原自助法生成零分布的方向检验基本重合。
应用
我们通过对六个乳腺癌转录组学研究数据的再分析,展示方向检验的实际应用。每个数据集包含雌激素受体阴性(ER-)和阳性(ER+)样本。ER-样本较少,将是我们分析的重点。本再分析旨在说明如何利用ER+样本的信息来辅助从ER-样本中学习通路的调控网络(通过高斯图模型的条件独立性图来实现)。
经验有效性
首先,我们评估检验统计量作为检测“方向”相关性的度量指标的经验有效性。我们通过构建一个数据集序列来验证,该序列中ER+样本的比例逐渐增加。对于所有可能的乳腺癌数据集对,我们评估了方向检验统计量α。结果显示,估计的方向检验统计量与数据集序列的顺序呈正相关(如文中Figure 2所示)。尽管相关强度因数据集具体特点而异,但这种行为在所有考虑的设置中都是系统性的。因此,方向检验统计量是衡量“方向”相关性的有效度量。
检验与拟合
在实际的典型场景中,我们对ER-样本的高斯图模型没有先验知识。这由空目标T0表示,它对应于一个空的条件独立性图。备择目标是来自相关人群(ER+样本)的高斯图模型的精度矩阵估计。然后,我们将方向检验应用于每个研究的ER-样本,以评估ER+目标的相关性。
检验结果(见文中Table 1)显示,在所有数据集中,方向检验在5%水平上都是显著的。我们得出结论,暂时遵循源自ER+样本的备择目标方向,能使我们更接近ER-样本高斯图模型的参数值。检验统计量α指示了沿该方向应采取的步长,所有值都大于0.2,表明步长相当可观。
我们进一步诊断了检验核心假设(即Θ = (1-α)T0+ αT1)对于乳腺癌数据的有效性。诊断图(如文中Figure 3所示)显示,虽然有些情况噪声较大,但该假设总体上是站得住脚的。
一个自然的后续问题是,模型拟合是否也在提议的方向上有所改善?我们通过研究Frobenius损失和二次损失来评估。对于每个数据集,两种损失都针对不同的α值进行绘制(见文中Figure 4)。所有曲线在区间[0, αmax]上(对于明显远离零的某个αmax)都是下降的,并且该区间总是包含α。此外,损失通常在接近(不一定恰好在)α处最小化。这表明,将检验统计量解释为备择目标方向的信息量时,它们是保守的。总之,这些发现证实了方向检验的结果:数据支持从T0到T1的提议方向,以寻找ER-样本高斯图模型的参数。
结论
我们提出了一种方向检验,用于检测关于高斯图模型参数的有价值信息是否存在于一个建议值所指示的方向上。该检验即使在有限样本量下也有良好的效力,甚至受益于更大的维度。此外,即使真实方向偏离建议方向,方向检验仍具有合理的效力。我们在一个乳腺癌应用中说明了方向检验的实际用途,其中一个较少见亚组的基因-基因互作网络的重建受益于另一个更常见亚组的估计。
我们预见方向检验还将在联邦学习中找到用武之地。出于隐私原因,数据交换受限,但允许交换数据的汇总统计量(如参数估计)。这些汇总统计量可作为方向检验中评估的外部知识。例如,外部知识可能来自具有不同人群的不同国家,或者来自不同医疗机构。方向检验可以评估外部知识对内部学习问题的信息价值。
未来的工作将向两个方向扩展:一是允许纳入多个备择目标/提议;二是将研究更深入地扩展到其他图模型领域,例如能更好体现细胞调控系统动态的向量自回归模型。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号