在过去二十年里,稀疏回归问题受到了广泛关注(参见Fan等人(2020年);Fernández-Delgado等人(2019年)的综述)。在许多现代科学领域,预测变量数量众多且相关性很强,包括神经科学(Cao等人,2018年)、气候科学(Mamalakis等人,2018年)、金融(Xia等人,2023年)和全基因组关联研究(Viallon等人,2016年)。正则化是解决稀疏性的关键工具,因为它能够实现系数收缩和自动变量选择。在神经网络及相关模型中,已经引入了促进稀疏性的惩罚项以提高效率和可解释性:Ma等人(2019年)和Wu等人(2023年)提出了在深度网络中引入稀疏性的惩罚项;Qi和Yang(2021年)将弹性网络整合到双支持向量机中以构建两个非平行的分离超平面;Wang等人(2020年)开发了一种结合群体Lasso惩罚项和冗余控制项的特征选择方案。正则化也被应用于高维环境中的迁移学习,其中l1惩罚估计器已被扩展到线性和广义线性模型(Li, Cai, Li, 2022年;Li, Zhang, Cai, Li, 2024年)。这些发展凸显了正则化在处理相关高维数据学习中的核心作用,也激发了本文的研究方向。
尽管在方法论和应用方面取得了显著进展,但在面对现实数据中常见的强相关性时,这些方法的实际实施仍然具有挑战性。许多现有方法(包括假设特征独立或弱相关的方法,van de Geer和Bühlmann,2009年)在这种环境下可能存在局限性。因此,提高统计方法的适用性以更好地适应高度相关数据的特征是一个重要且及时的研究方向。
相关工作可以根据相关性或结构的编码方式来进行分类。Guo等人(2016年)提出了Spline Lasso,适用于特征以某种有意义的方式排序的场景。Ahsen等人(2017年)提出了Combined L-One and Two,用于稀疏回归和压缩感知,实现了稳健的恢复和分组效果。大量基于图约束的正则化方法被研究出来以应对预测变量之间的复杂相关性。这些方法在施加惩罚的同时,鼓励图上相互关联的预测变量具有相似的系数。例如,Daye和Jeng(2009年)提出了Weighted Fusion,其中包含了基于相关性的惩罚项;Huang等人(2011年)提出了Sparse Laplacian Shrinkage(SLS),它结合了Laplacian二次惩罚项。这两种方法都利用了预测变量之间的样本相关性来构建图。然而,样本相关性并不适用于稀疏场景。为了处理图的稀疏性,Xia等人(2021年)在Laplacian二次惩罚项中加入了预测变量之间的条件依赖模式,并提出了一种图约束正则化程序。Li等人(2020年)考虑了一个控制协变量之间相关性以及回归系数相似性的图。
同时,群体或簇结构也是预测变量之间常见的相关结构类型,这促使学者们在回归分析中探索群体效应。Yuan和Lin(2006年)提出的Group Lasso通过在每个已知且不重叠的K组内的系数上使用l2型惩罚来实现这一目标。一些针对分组情况的修改程序也被提出。Simon等人(2013年)提出了Sparse Group Lasso,它通过额外的Lasso惩罚项来鼓励组内元素的稀疏性。Witten等人(2014年)提出了Cluster Elastic Net,可以在不了解簇的情况下选择性地收缩这些预测变量的系数。Yang和Yang(2021年)提出了一种自适应的逆向惩罚项,以消除收缩偏差并鼓励群体效应。Sun和Wang(2022年)开发了一种结合B样条平滑技术的自适应群体Lasso方法。其他稀疏群体分析的扩展包括Dondelinger等人(2020年);Hui等人(2025年);Ming等人(2023年)。然而,由于实际数据中相关结构的复杂性,估计和预测相关数据的挑战仍然存在。这促使人们进一步探索特定数据结构下的方法,以提高估计性能和应用的效率。
当方法依赖于静态或预定义的群体结构时,它们可能会忽略复杂数据中的异质效应模式。以往的工作通常鼓励同一组或图邻域内的预测变量共享相似的系数,这在实践中可能不现实。例如,在投资组合分析中,同一行业的股票可能会朝相反方向移动;在基因组或神经成像研究中,同一通路或功能网络中的基因可能会显示出不同的活动模式(Li等人,2015年)。这些观察结果促使人们开发出能够利用结构信息而不强制统一效应的自适应模型,从而允许出现异质但相关的系数或权重。
为了解决这一需求,我们研究了系数分组与预测变量相关性无关的相关数据,并提出了基于集中正则化的系数配对估计(CECR)。CECR将每个系数与一个学习到的群体中心配对,并施加集中惩罚以使估计值向其中心收缩,同时保持稀疏性。这实现了模型参数中的结构化稀疏性和潜在参数共享,无需预定义的群体。我们进一步开发了一种适用于没有明确分组信息的迭代算法。该算法交替进行中心向量估计、将每个系数分配给中心以及通过坐标下降更新系数的操作。该算法可扩展到高维度,并能无缝与标准训练目标集成。
理论上,我们在增加维度和样本量的情况下推导出了l1和l2误差界限,并在温和条件下证明了变量选择的一致性和渐近正态性。在不同系数群体模式和相关性情况下的模拟实验表明,CECR在支持恢复和预测性能上有所提升。在纳斯达克100指数跟踪应用中,CECR的跟踪误差低于其他竞争方法,并在几种类型的人为噪声下表现出稳定的性能,表明其在大规模预测建模中的实际效用,并为结构化稀疏性、参数共享和以剪枝为导向的模型设计提供了一条原理性的途径。
本文的结构如下:第2节介绍了集中惩罚和CECR。第3节提供了计算算法。第4节展示了所提出估计器的理论性质。第5节关注了模拟研究。第6节报告了在指数跟踪中的应用性能。我们在第7节进行了总结,技术细节在补充材料中提供。