ModeKoff:一种基于模态的高维数据变量筛选方法,具备FDR(False Discovery Rate)控制功能

《Computational Statistics & Data Analysis》:ModeKoff: A Unified Modal-Based Variable Screening Method for High-Dimensional Data with FDR Control

【字体: 时间:2026年05月10日 来源:Computational Statistics & Data Analysis 1.6

编辑推荐:

  魏雄|张秦明 对外经济贸易大学统计学院,中国北京市朝阳区汇新东路10号 **摘要** 本文提出了一种新的度量方法——模态依赖指数(Modal Dependence Index,简称MoI),用于量化响应变量与多变量预测变量之间的模态依赖关系。通过利用众数(即高度偏态

  魏雄|张秦明
对外经济贸易大学统计学院,中国北京市朝阳区汇新东路10号

**摘要**
本文提出了一种新的度量方法——模态依赖指数(Modal Dependence Index,简称MoI),用于量化响应变量与多变量预测变量之间的模态依赖关系。通过利用众数(即高度偏态分布中最直观的集中趋势度量),MoI对重尾和高度偏态分布具有很强的鲁棒性。在MoI的基础上,我们开发了一个适用于高维数据的统一、无模型的特征筛选框架,能够处理分类和连续型响应变量以及单变量和多变量预测变量。该方法利用分位数回归技术获得经验度量值,计算效率高且适用于大规模数据集。研究表明,在温和的规则条件下,所提出的筛选方法具有可靠的筛选和排序一致性。此外,我们还提出了一种两步程序,结合了去随机化的仿制品(derandomized knockoffs),以提高稳定性,并保证可靠的筛选效果和错误发现率(False Discovery Rate,FDR)控制。模拟示例和实际数据分析表明,基于MoI的方法比现有方法表现得更好。

**引言**
随着技术的迅速发展,具有超高维特征的数据集在机器学习、计算机科学、统计学、工程学、社会科学、金融等领域日益普遍。特征筛选已成为提高高维数据分析中计算效率、统计准确性和算法稳定性的基本工具(Fan等人,2009年)。自Fan和Lv(2008年)首次提出基于皮尔逊相关性的独立筛选(Sure Independence Screening,简称SIS)方法以来,过去二十年里已经发展出了多种基于模型和无模型的特征筛选方法。一些筛选程序利用基于相关性的边际效用;例如,Li等人(2012年)提出了基于距离相关性的SIS方法,Shao和Zhang(2014年)开发了鞅差分相关性用于特征筛选,Pan等人(2019年)使用球形相关性进行边际筛选,Liu等人(2022年)在多变量响应环境中使用投影相关性进行特征筛选。还有一些筛选程序基于均值视角的指标;例如,Fan等人(2011年)为非参数加性模型提出了基于均值的边际效用,Cui等人(2015年)开发了基于均值-方差(Mean-Variance,MV)的指数并引入了基于MV的筛选方法。从分位数角度出发,He等人(2013年)开创了分位数自适应特征筛选方法,适用于高维异构数据,Xu(2017年)进一步扩展了该方法,Wu等人(2015年)提出了基于秩的边际效用用于条件分位数筛选,Ma等人(2017年)利用分位数偏相关性解决预测变量之间的高相关性问题。最近,Liu等人(2022年)提出了一种基于投影分位数相关性的分位数自适应分组筛选方法。基于均值的筛选指标捕捉预测变量对响应变量条件均值的影响,而基于分位数的指标则反映了其对响应分布不同部分的影响,其中0.5分位数对应中位数。除了均值和中位数,众数也是一种直观的集中趋势度量,尤其适用于正偏态数据、重尾分布和名义尺度数据。与均值或中位数不同,众数能够捕捉数据的局部峰值和不规则性,并且对测量误差具有鲁棒性。此外,许多实际问题本质上是模态的,例如识别出现频率最高或最具代表性的基因或信号。在这种情况下,众数提供了一个简单且易于解释的总结。随着天文学、交通运输、医学研究和计量经济学等领域高维数据集出现重尾或高偏度现象的频率增加,迫切需要新的特征筛选方法。这促使我们开发了一种基于模态的依赖度量方法来量化模态依赖关系,并结合一种基于模态的筛选程序,以实现高维数据分析中的错误发现率控制。

**利用众数的优势**
我们引入了一种称为模态依赖指数(MoI)的新概念,用于衡量(X, Y)偏离关系“mode(Y|X) ≈ mode(Y)”的程度,这一关系几乎可以确保Y和X之间的模态独立性。MoI简单直观,能更敏感地捕捉响应分布峰值的变化。具体来说,MoI的定义使得当且仅当MoI(Y|X) = 0时,(X, Y)遵循该关系;否则MoI(Y|X) > 0。为了获得MoI的经验值,我们需要一个条件众数估计器,文献中有两种主要方法:非参数核估计(Chen等人,2016a;Feng等人,2020a)和线性模态回归(Kemp和Silva-Santos,2012;Lee,1989;Yao和Li,2014)。虽然非参数估计避免了模型错误设定,但随着预测变量数量的增加其收敛速度较慢;而线性模态回归虽然避免了维数灾难,但需要解决多维非凸优化问题。为了克服这些限制,我们借鉴了Ota等人(2019)和Zhang等人(2023)的工作,他们通过线性分位数回归估计条件众数,利用条件众数可以表示为稀疏函数最小化器的性质(Ota等人,2019;Zhang等人,2023)。受此启发,我们提出了一种更灵活的方法,利用非参数分位数回归拟合条件分位数,并通过最小化核平滑条件分位数的导数来估计条件众数,从而得到更平滑的估计器,并便于对提出的MoI进行理论分析。为了确保计算的可扩展性,我们进一步引入了两种基于MoI的经验替代方法,这些方法整合了多个分位数的优势。通过对每对预测变量-响应值对进行排序,我们建立了一种称为基于MoI的筛选(MoIS)的新无模型特征筛选程序。由于MoI适用于连续和分类响应变量以及单变量或多变量预测变量,所提出的MoIS为分类和回归任务中的分组或单变量筛选提供了一种统一且有效的工具。

**基于MoIS的FDR控制程序**
在MoIS的吸引人特性的基础上,我们进一步开发了一种使用去随机化仿制品的FDR控制程序。大多数现有筛选方法依赖于阈值来区分活跃和非活跃的预测变量,并通常通过选择保守的阈值(如[n/log n])来优先考虑可靠筛选属性。理想情况下,阈值规则应同时保证可靠筛选属性和FDR控制,即识别出的预测变量包括所有真实的活跃预测变量以及少数非活跃预测变量。最近的FDR控制阈值选择进展通常基于边际效用或仿制品统计量的对称变换来构建数据驱动的阈值。例如,Liu等人(2022)结合了投影相关性与仿制品特征;Dai等人(2023)提出了用于线性模型和高斯图模型的FDR控制的数据分割方法;Tong等人(2023)通过数据分割引入了条件筛选的FDR控制方法。然而,基于仿制品和数据分割的方法引入了随机性,可能导致从同一数据集选出不同的变量集。因此,我们提出了一种新的稳定FDR控制程序,称为MoI-derandomized-Knockoff(ModeKoff),它整合了Ren等人(2023)的去随机化仿制品框架来稳定选择过程。通过聚合多次运行的结果,我们证明了ModeKoff能够同时实现可靠筛选和FDR控制,同时提高统计功效和可重复性。

**主要贡献**
本文有两个主要贡献。首先,我们引入了MoI,这是一种计算效率高的度量方法,用于量化响应变量与预测变量之间的模态依赖关系。该指数适用于具有厚尾或高偏态的数据集,通常适用于连续和分类响应变量以及单变量或多变量预测变量。通过利用非参数分位数回归,MoI在具有大量特征的大型数据集上具有计算可扩展性,并建立了渐近理论。其次,我们开发了ModeKoff,它在MoI的基础上提供了一个统一且鲁棒的框架,用于高维问题中的特征筛选和变量选择。理论上证明ModeKoff能够同时实现可靠筛选属性和FDR控制。蒙特卡洛模拟和实际数据分析验证了我们的方法优于现有方法。

**论文结构**
第2节介绍了MoI的定义,讨论了其属性,并提出了估计程序及其渐近理论。第3节介绍了MoIS程序,证明了其在温和条件下的可靠筛选和排序一致性,并开发了ModeKoff程序以确保可靠筛选和FDR控制。第4节和第5节通过模拟示例和两个实际应用评估了MoIS和ModeKoff的有限样本性能。第6节进行了简要讨论。技术证明和额外模拟结果可在补充材料中找到。

**方法论**
一些符号说明:设X和Y分别表示单变量随机变量X和Y的支持集,定义为X = {x: fX(x) > 0}和Y = {y: fY(y) > 0},其中fX(·)和fY(·)是相应的密度函数。FX(·)和FY(·)表示X和Y的分布函数,f(y|x)表示给定X = x时Y的条件密度,对于每个设计点x来说f(y|x)是连续的。Y的众数记为mY,定义为mY = argmax_y ∈ R fY(y)。

**MoIS程序**
在本节中,我们提出了一种无模型且数据自适应的筛选程序,继承了MoI的吸引人特性。设Y为响应变量,x = (X1, …, Xp)T为p个预测变量的向量。设F为工作索引集,Fc为其补集。F和Fc都是{1, 2, …, p}的子集。我们定义xF = {Xk ∈ F}为由F索引的预测变量向量,#{·}表示集合的基数。我们定义活跃变量集A = {k: mode(Y|x) 函数依赖于Xk, 1 ≤ k ≤ p},其中mode(Y| x)表示在X = x条件下Y的众数。

**实现细节**
在我们的模拟研究中,为了估计每个m^(xi) (i = 1, …, n),我们使用对称拉普拉斯核KL(t) = exp(?|t|)/2来得到原始的局部线性分位数估计器α?xi(τ),并使用双核函数K(t) = 1/5(1 ? t^2)^2I(|t| < 1)来进一步平滑α?xi(τ),得到最终的双核分位数平滑器α^xi(τ)。在计算众数估计器时,我们设置? = 0.1。稀疏函数的最小化使用R语言的optimize函数完成。

**实际数据分析**
在本节中,我们通过两个实际数据应用展示了所提出的MoI和相关MoIS程序的实际性能。第一个例子分析了美国工资数据,展示了MoI如何揭示基于均值或中位数不同的依赖模式,特别是在响应分布偏态时。第二个例子考虑了一个高维超市数据集,并应用ModeKoff程序来识别重要产品。

**结论与讨论**
我们提出了一种新的指数MoI,用于量化模态依赖关系的强度,并在此基础上开发了一种通用的特征筛选方法MoIS。我们提出的MoIS无需模型,对重尾预测变量和随机误差具有鲁棒性,能够处理分类和连续型响应变量,使其成为一个可扩展且统一的筛选工具。通过利用众数的优势,MoIS在处理偏态分布方面表现出色,并提供了有价值的见解。

**支持信息**
更多支持信息可在出版商网站上的文章在线版本中找到。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号