通过半Grothendieck协方差方法对高维数据进行的无分布假设的稳健独立性检验
《Journal of Multivariate Analysis》:Distribution-free robust independence test for high-dimensional data via semi-Grothendieck’s covariance
【字体:
大
中
小
】
时间:2026年05月11日
来源:Journal of Multivariate Analysis 1.7
编辑推荐:
阮哲江|黄晓文|高哲|姜云璐
广州中山大学经济学院统计与数据科学系,510632
摘要
在本文中,我们探讨了高维随机向量与分类随机变量之间独立性检验所面临的挑战。这些挑战包括数据的高维性和鲁棒性问题。为了克服这些挑战,我们提出了一种基于随机积分技术和Grothend
阮哲江|黄晓文|高哲|姜云璐
广州中山大学经济学院统计与数据科学系,510632
摘要
在本文中,我们探讨了高维随机向量与分类随机变量之间独立性检验所面临的挑战。这些挑战包括数据的高维性和鲁棒性问题。为了克服这些挑战,我们提出了一种基于随机积分技术和Grothendieck恒等式的新型半-Grothendieck协方差方法,用于测量高维随机向量与分类随机变量之间的相关性。所提出的半-Grothendieck协方差满足独立性-零等价性质。此外,我们还基于这种半-Grothendieck协方差提出了一种非参数独立性检验方法。由于随机向量的高维性,我们提出的检验统计量的渐近零分布遵循标准正态分布,且对向量矩没有限制。此外,由于混合态条件,在实际应用中可以很容易地验证特定条件。数值研究和真实数据分析表明,我们提出的方法在有限样本情况下具有优越的性能。
引言
独立性检验是现代数据分析和统计推断中的一个重要且基本的问题,在科学研究(如经济学(Górecki等人,2020年)、制造过程中的质量控制(Cui等人,2025年)、遗传和生物医学研究(J.-T. Zhang和T. Zhu,2024年)以及机器学习中的特征筛选(Li等人,2023年)等多个领域都有广泛应用。然而,传统的统计方法经常面临数据的高维性(Pan等人,2019年;Jiang等人,2025年)、重尾分布(Fan等人,2021年)或数据集中的异常值(Hampel等人,2011年)所带来的挑战。尽管已经提出许多方法来处理两个随机向量之间的独立性问题,但关于高维随机变量与分类变量之间独立性的研究却很少。因此,在理论与实践中,如何解决高维随机变量与分类变量之间的独立性问题是至关重要的。
在过去二十年里,已有大量文献研究了两个随机变量之间的依赖性。例如,距离协方差(Székely等人,2007年;Székely和Rizzo,2009年;Lyons,2013年;R. Jiang等人,2026年)、Hilbert–Schmidt独立性准则(HSIC)(Gretton等人,2005年;Gretton等人,2007年;Pfister等人,2018年;Albert等人,2022年;Gao等人,2025年)、基于秩的方法(Weihs等人,2018年;Chatterjee,2021年;Shi等人,2022年;Deb和Sen,2023年)、基于copula的方法(Schweizer和Wolff,1981年;Kojadinovic和Holmes,2009年;Siburg和Stoimenov,2010年;Genest等人,2019年;Herwartz和Maxand,2020年)、与Kendall’s tau相关的符号协方差技术(Bergsma和Dassios,2014年)、球形协方差(Pan等人,2020年)以及Gupta角度协方差(Y. Jiang等人,2026年)。然而,上述方法在建立其理论分布时假设了数据的固定维度和大样本量。实际上,一些研究关注了高维环境下独立性检验的行为。例如,Székely和Rizzo(2013年)修改了距离相关性,并表明当维度p和q趋于无穷大而样本量n固定时,修改后的检验统计量收敛于Student t-分布。Yang和Pan(2015年)基于两个随机向量之间的规范化样本典型相关性系数之和构建了一个检验统计量,并在p/n→c1∈(0,∞)和q/n→c2∈(0,∞)的条件下确定了该统计量的渐近零分布。Zhu等人(2020年)研究了高维下基于距离和再生核的依赖度量,并在p∧q→∞和n→∞时得到了渐近零分布。Gao等人(2021年)引入了一个基于偏差校正距离相关的重新缩放的检验统计量,并得出在p+q→∞和n→∞时零分布为标准正态分布的结论。Han和Shen(2024年)研究了高维下的广义核距离协方差,得出了高斯变量的非零中心极限定理。Qiu等人(2023年)研究了两个高维随机向量的随机子空间的独立性检验。Y. Zhang和L. Zhu(2024年)引入了高维下的投影独立性检验。Zhou等人(2024年)通过基于秩的指数提出了Hoeffding’s D、Blum-Kiefer-Rosenblatt’s R和Bergsma-Dassios-Yanagimoto’s τ?来检验两个高维随机变量之间的独立性。Cai等人(2024年)提出了一个通过数据分割和分类算法进行高维数据独立性检验的通用框架。
然而,在许多实际应用中,通常需要测量随机变量或向量与分类变量之间的依赖性。例如,Choi等人(2012年)研究了计算机视觉中特定像素子集与分类输出之间的关系。实际上,有一些方法可以解决这个问题。Cui和Zhong(2019年)以及Ma等人(2023年)分别引入了基于均值方差指数和修正均值方差指数的无分布独立性检验。尽管这些方法对数据集中的异常值具有鲁棒性,但它们只能处理单变量数据。为了处理这一限制,Liu等人(2022年)通过投影均值方差度量将均值方差指数(Cui和Zhong,2019年)扩展到多变量数据。然而,它只能处理随机向量的维度固定的情况。Dang等人(2021年)和Zhong等人(2024年)引入了Gini相关性和半距离相关性来测量随机变量与分类变量之间的依赖性。同时,Sang和Dang(2023年)以及Zhong等人(2024年)分别在n,p→∞和p→∞时获得了Gini相关性和半距离相关的渐近正态性。然而,这些方法对数据集中的重尾分布或异常值不具鲁棒性,因为它们依赖于随机向量的有限矩假设。因此,我们提出了一个新型的鲁棒独立性检验方法,用于高维随机变量与分类变量之间的独立性检验。
在本文中,我们引入了一种基于随机积分技术和Grothendieck恒等式的新型半-Grothendieck协方差(Jiang等人,2023年;Jiang等人,2024年),用于检验p维随机向量X与分类变量Y之间的独立性。半-Grothendieck协方差是非负的,并且当且仅当X和Y统计独立时等于零。由于我们提出的半-Grothendieck协方差不依赖于随机向量X的矩假设,因此它对数据集中的重尾分布或异常值具有鲁棒性。此外,我们证明所提出的检验统计量的渐近零分布是标准正态分布,当p→∞和n→∞时。此外,由于混合态条件,我们提供了在实际应用中可以容易验证的更具体条件。广泛的数值模拟和真实数据分析证实,所提出的检验在有限样本情况下具有满意的性能。
本文的其余部分组织如下:第2节首先介绍了基于随机积分技术的半-Grothendieck协方差,然后建立了所提出检验统计量的渐近性质。第3节通过蒙特卡洛模拟研究了零分布极限,并对所提出检验的数值性能与现有检验进行了比较评估。第4节使用真实数据集进行了实证分析。第5节总结了一些评论。主要结果的技术细节和额外模拟在附录和补充材料中给出。
**半-Grothendieck协方差及其性质的定义**
设X为一个p维随机向量,Y为一个具有H个类别{1,…,H}的分类变量。假设对于所有h∈{1,…,H},有ph=P(Y=h)>0,并且用nh表示类别h的观测样本量。在本文中,我们想要检验H0:X和Y独立 vs H1:X和Y不独立。我们注意到,当且仅当对于任何p维向量α,单变量随机变量α?X和Y独立时,X和Y才是独立的。因此,通过随机积分检验独立性的一个简单方法是...
**模拟研究**
在本节中,我们使用蒙特卡洛模拟在各种条件下检验所提出的半-Grothendieck协方差(SG)的零分布极限和有限样本性能。为了进行比较分析,将所提出的SG检验及其渐近方法(SG(asym)与几种方法进行了对比:半距离(SD)检验(Zhong等人,2024年)及其渐近方法(SD(asym);基于互信息估计的检验(MINT)(Berrett...
**真实数据分析**
在本节中,我们应用所提出的方法分析了来自常规结肠镜检查的胃肠道病变成像数据集,该数据集包含多种成像模态,可访问地址为https://archive.ics.uci.edu/dataset/408/gastrointestinal+lesions+in+regular+colonoscopy。该数据集包含了76个不同胃肠道病变的152个样本,每个病变都使用了白光(WL)和窄带成像(NBI)两种模态进行成像,从而产生了76个WL样本和76个NBI样本。
**讨论**
在本文中,我们引入了一种新型的半-Grothendieck协方差来测量高维随机向量X与分类随机变量Y之间的相关性。所提出的半-Grothendieck协方差满足独立性-零等价性质,即当且仅当X和Y统计独立时,它是非负的且等于零。此外,即使在不对X的矩有任何假设的情况下,也展示了其渐近分布。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号