针对结构化稀疏性问题，采用系数配对与集中式正则化相结合的方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Coefficient pairing with centralized regularization for structured sparsity

【字体：大中小】 时间：2026年03月18日 来源：Neural Networks 6.3

编辑推荐：

　　高维强相关数据中，系数未知分组结构的自适应稀疏估计方法。提出CECR方法，通过学习中心向量动态配对系数，结合迭代坐标下降算法，实现结构化稀疏惩罚与参数共享。理论证明误差界和渐近正态性，模拟显示支持恢复和预测优于Elastic Net、Spline Lasso等方法，在纳斯达克100指数跟踪应用中跟踪误差更低。

夏思伟|杨月涵

成都理工大学数学科学学院，中国成都

摘要

稀疏线性回归被广泛应用，但在预测变量之间存在强相关性或系数表现出协变量相关性未体现的潜在群体结构时，仍面临挑战。我们提出了基于集中正则化的系数配对估计（CECR）方法，该方法通过将每个系数与一个学习到的群体中心配对，实现基于群体的收缩同时保持稀疏性。CECR无需先验群体标签即可联合学习系数和中心，并通过高效的迭代坐标下降算法进行求解。我们证明了变量选择的一致性、有限样本误差界限以及随着维度和样本量增加时的渐近正态性。在不同系数群体模式和相关性情况下的模拟实验表明，与现有方法相比，CECR在支持恢复和预测性能上有所提升。在纳斯达克100指数跟踪应用中，CECR的跟踪误差低于其他竞争方法，显示出其在大规模预测建模以及高维模型中的参数共享和剪枝方面的潜力。

引言

在过去二十年里，稀疏回归问题受到了广泛关注（参见Fan等人（2020年）；Fernández-Delgado等人（2019年）的综述）。在许多现代科学领域，预测变量数量众多且相关性很强，包括神经科学（Cao等人，2018年）、气候科学（Mamalakis等人，2018年）、金融（Xia等人，2023年）和全基因组关联研究（Viallon等人，2016年）。正则化是解决稀疏性的关键工具，因为它能够实现系数收缩和自动变量选择。在神经网络及相关模型中，已经引入了促进稀疏性的惩罚项以提高效率和可解释性：Ma等人（2019年）和Wu等人（2023年）提出了在深度网络中引入稀疏性的惩罚项；Qi和Yang（2021年）将弹性网络整合到双支持向量机中以构建两个非平行的分离超平面；Wang等人（2020年）开发了一种结合群体Lasso惩罚项和冗余控制项的特征选择方案。正则化也被应用于高维环境中的迁移学习，其中l1惩罚估计器已被扩展到线性和广义线性模型（Li, Cai, Li, 2022年；Li, Zhang, Cai, Li, 2024年）。这些发展凸显了正则化在处理相关高维数据学习中的核心作用，也激发了本文的研究方向。

尽管在方法论和应用方面取得了显著进展，但在面对现实数据中常见的强相关性时，这些方法的实际实施仍然具有挑战性。许多现有方法（包括假设特征独立或弱相关的方法，van de Geer和Bühlmann，2009年）在这种环境下可能存在局限性。因此，提高统计方法的适用性以更好地适应高度相关数据的特征是一个重要且及时的研究方向。

相关工作可以根据相关性或结构的编码方式来进行分类。Guo等人（2016年）提出了Spline Lasso，适用于特征以某种有意义的方式排序的场景。Ahsen等人（2017年）提出了Combined L-One and Two，用于稀疏回归和压缩感知，实现了稳健的恢复和分组效果。大量基于图约束的正则化方法被研究出来以应对预测变量之间的复杂相关性。这些方法在施加惩罚的同时，鼓励图上相互关联的预测变量具有相似的系数。例如，Daye和Jeng（2009年）提出了Weighted Fusion，其中包含了基于相关性的惩罚项；Huang等人（2011年）提出了Sparse Laplacian Shrinkage（SLS），它结合了Laplacian二次惩罚项。这两种方法都利用了预测变量之间的样本相关性来构建图。然而，样本相关性并不适用于稀疏场景。为了处理图的稀疏性，Xia等人（2021年）在Laplacian二次惩罚项中加入了预测变量之间的条件依赖模式，并提出了一种图约束正则化程序。Li等人（2020年）考虑了一个控制协变量之间相关性以及回归系数相似性的图。

同时，群体或簇结构也是预测变量之间常见的相关结构类型，这促使学者们在回归分析中探索群体效应。Yuan和Lin（2006年）提出的Group Lasso通过在每个已知且不重叠的K组内的系数上使用l2型惩罚来实现这一目标。一些针对分组情况的修改程序也被提出。Simon等人（2013年）提出了Sparse Group Lasso，它通过额外的Lasso惩罚项来鼓励组内元素的稀疏性。Witten等人（2014年）提出了Cluster Elastic Net，可以在不了解簇的情况下选择性地收缩这些预测变量的系数。Yang和Yang（2021年）提出了一种自适应的逆向惩罚项，以消除收缩偏差并鼓励群体效应。Sun和Wang（2022年）开发了一种结合B样条平滑技术的自适应群体Lasso方法。其他稀疏群体分析的扩展包括Dondelinger等人（2020年）；Hui等人（2025年）；Ming等人（2023年）。然而，由于实际数据中相关结构的复杂性，估计和预测相关数据的挑战仍然存在。这促使人们进一步探索特定数据结构下的方法，以提高估计性能和应用的效率。

当方法依赖于静态或预定义的群体结构时，它们可能会忽略复杂数据中的异质效应模式。以往的工作通常鼓励同一组或图邻域内的预测变量共享相似的系数，这在实践中可能不现实。例如，在投资组合分析中，同一行业的股票可能会朝相反方向移动；在基因组或神经成像研究中，同一通路或功能网络中的基因可能会显示出不同的活动模式（Li等人，2015年）。这些观察结果促使人们开发出能够利用结构信息而不强制统一效应的自适应模型，从而允许出现异质但相关的系数或权重。

为了解决这一需求，我们研究了系数分组与预测变量相关性无关的相关数据，并提出了基于集中正则化的系数配对估计（CECR）。CECR将每个系数与一个学习到的群体中心配对，并施加集中惩罚以使估计值向其中心收缩，同时保持稀疏性。这实现了模型参数中的结构化稀疏性和潜在参数共享，无需预定义的群体。我们进一步开发了一种适用于没有明确分组信息的迭代算法。该算法交替进行中心向量估计、将每个系数分配给中心以及通过坐标下降更新系数的操作。该算法可扩展到高维度，并能无缝与标准训练目标集成。

理论上，我们在增加维度和样本量的情况下推导出了l1和l2误差界限，并在温和条件下证明了变量选择的一致性和渐近正态性。在不同系数群体模式和相关性情况下的模拟实验表明，CECR在支持恢复和预测性能上有所提升。在纳斯达克100指数跟踪应用中，CECR的跟踪误差低于其他竞争方法，并在几种类型的人为噪声下表现出稳定的性能，表明其在大规模预测建模中的实际效用，并为结构化稀疏性、参数共享和以剪枝为导向的模型设计提供了一条原理性的途径。

本文的结构如下：第2节介绍了集中惩罚和CECR。第3节提供了计算算法。第4节展示了所提出估计器的理论性质。第5节关注了模拟研究。第6节报告了在指数跟踪中的应用性能。我们在第7节进行了总结，技术细节在补充材料中提供。

部分摘录

方法

我们关注线性回归模型：

\begin{matrix} y = X β + ?, \end{matrix}

其中

y = {(y_{1}, ?, y_{n})}^{T} \in R^{n}

是响应变量，

X = (X_{1}, ?, X_{p}) T \in R^{n}

是观测矩阵或设计矩阵。

β = {(β_{1}, ?, β_{p})}^{T} \in R^{p}

是系数向量，

? = {(?_{1}, ?, ?_{n})}^{T}

是误差向量。系数可以被划分为多个组，在每个组内，系数是相似的，共享同一个中心。系数的群体结构可以与预测变量的群体结构不同。设

C_{1}, ?, C_{K}

为系数的分组，其中K是不相交的。

计算算法

在本节中，我们介绍了一种无需预先知道系数中心向量即可应用的CECR算法。估计CECR本质上涉及解决Lasso类型的问题。该算法的重点在于估计中心向量并将系数与其中心配对。以下提出了一个用于搜索中心向量并估计系数的迭代算法。我们假设响应变量和预测变量的观测值已经给出

理论结果

在本节中，我们为高维环境下的CECR提供了理论保证。预测变量的数量p满足

p = O (e^{n^{c_{1}})}

，系数非零元素的数量q满足

q = O(n^{c_{2})}

，其中0 < c1 < c2 < mn0 < mn1 + mn2 < mn1

S

表示显著预测变量的索引集，即

S = {j : β_{j} \neq 0}

，

\hat{S} = {j : {\hat{β}}_{j} \neq 0}

是其估计值。

S^{c}

={j:βj=0}是S的补集。我们首先展示了所提方法的误差界限结果。这个性质需要满足以下条件：

条件1

模拟

为了评估所提方法的性能，我们进行了几项模拟研究。具体来说，我们将CECR与四种方法进行了比较：1）弹性网络（Zou和Hastie，2005年）；2）Spline Lasso（Guo等人，2016年）；3）平滑Lasso（Hebiri和van de Geer，2011年）以及图总变分（GTV）估计器（Li等人，2020年）。弹性网络使用R包glmnet求解；Spline Lasso和平滑Lasso都可以转换为Lasso形式并用glmnet拟合；GTV可以

应用

在本节中，我们探讨了CECR在指数跟踪问题上的实证性能。与主动管理的共同基金相比，基于指数跟踪的指数基金在现代投资组合管理中因成本效益和稳定回报而受到重视。指数跟踪需要构建和管理一个成分组合，其表现尽可能接近给定股票指数（Corielli和Marcellino，2006年）。考虑到交易

结论

在本文中，我们提出了基于集中正则化的系数配对估计（CECR），这是一种用于分析存在未知群体的高维相关数据的技术。CECR通过引入一种新的集中惩罚来处理系数的群体结构。我们开发了一种高效的迭代算法来求解CECR，该算法结合了坐标下降和系数聚类。变量选择的理论性质

CRediT作者贡献声明

夏思伟：撰写——原始草稿，软件开发。杨月涵：撰写——审稿与编辑，项目管理，资金获取。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本研究得到了中国国家自然科学基金（项目编号12371281）；新兴交叉学科项目、中央财经大学的基金以及学科基金的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号