通过归一化额外梯度初始化增强渐进式集成学习

《Neural Networks》:Enhancing Progressive Ensemble Learning via Normalized Extra-Gradient Initialization

【字体: 时间:2026年02月21日 来源:Neural Networks 6.3

编辑推荐:

  渐进式集合学习通过分阶段扩展模型提升训练效率,但复制初始化易导致训练不稳定。本文基于功能优化理论提出归一化额外梯度(NEG)初始化方法,通过计算现有模块的负梯度并归一化实现新模块初始化,既加速收敛又增强稳定性。理论分析证明该方法在线性网络设置下具有更好的收敛性,边缘稳定性分析显示其能有效预条件损失曲面。实验表明NEG在合成数据及真实ImageNet数据集上显著优于基线方法,有效提升ViT等大模型训练效率。

  
吴哲顺|潘宇|曾墩|王启帆|徐增林|刘杰
哈尔滨工业大学,深圳,广东省,中国

摘要

随着深度学习模型规模的不断扩大,它们对计算资源的需求也在持续增长。渐进式训练(progressive training)通过逐步扩展模型规模,为这一问题提供了解决方案。其中最受欢迎的应用之一是渐进式集成学习(progressive ensemble learning),该方法采用分阶段的方式训练模型集成。为了提高渐进式集成学习的效率,研究人员提出了一种基于复制参数的初始化方法(copy initialization),即从早期模型中复制参数来初始化新添加的模块。然而,这种初始化方法会降低训练的稳定性,而且很少有研究致力于基于学习理论设计新的初始化方法。为了解决这一难题,我们将渐进式集成学习问题表述为一个函数优化问题。在此基础上,我们提出了归一化额外梯度(Normalized Extra-Gradient, NEG)初始化方法,旨在提升其性能。我们提供了严格的理论分析,包括收敛性保证和稳定性边界分析,解释了NEG初始化如何同时提高训练效率和稳定性。为了验证该方法的优势,我们在合成数据上进行了概念验证实验,并将其应用于ImageNet-200和ImageNet-1K上的Vision Transformer(ViT)模型。实验结果充分证明了我们方法相较于传统基线的优越性。

引言

深度神经网络已被广泛应用于计算机视觉、自然语言处理、推荐系统、多模态学习以及复杂数据流等多个领域(Devlin, Chang, Lee, Toutanova, 2019; Hao, Li, Guo, Xu, 2025a; Hao, Wang, Zhang, Feng, Li, Chong, Pan, Li, 2023b; Hojjati, Ho, Armanfard, 2024; Raffel, Shazeer, Roberts, Lee, Narang, Matena, Zhou, Li, Liu, 2020),并在各种任务中表现出色。随着数据集规模、模型规模和计算资源的增加,实证研究表明模型性能持续提升(Wang, Ye, Zhao, Wu, Li, Song, Xu, Kraska, 2018a; Zhai, Kolesnikov, Houlsby, Beyer, 2022)。然而,训练这些大规模模型仍然非常耗费资源且难度不断增加(Shen et al., 2024)。
为了解决这些问题,一种常用的训练策略是渐进式训练,即从简单的小模型开始,通过多个阶段逐步添加模块来扩展模型。渐进式训练的一个重要应用是渐进式集成学习(Chen, Guestrin, 2016; Friedman, 2001),该方法通过分阶段构建基础模型、分类器(Ganaie et al., 2022)或专家模型(用于Mixture-of-Experts, MoE, Allingham et al., 2021)的集成。
最近的研究表明,有效的初始化策略能够显著提升渐进式集成学习的训练效率(Agarwal et al., 2024)。在渐进式集成学习中,复制初始化(copy initialization, Gong et al., 2019)是一种被广泛采用的方法,它通过将现有模型的参数复制到新添加的模块中来创建新模块。然而,从函数优化的角度来看,复制初始化仅利用了有限的梯度信息(Agarwal, Awasthi, Kale, & Zhao, Mason, Baxter, Bartlett, Frean, 1999),这可能会影响训练的稳定性。此外,复制初始化还可能因结构突变导致训练不稳定(Noci et al., 2022)。因此,我们致力于开发新的初始化方法以提高渐进式集成学习的训练效率。
NEG初始化为了解决这些问题,我们提出了一种名为归一化额外梯度(NEG)的初始化方法,专门用于渐进式集成学习。该方法基于函数优化的视角,利用从现有模块计算出的归一化负梯度来初始化新添加的模块。通过函数优化理论,我们证明了NEG在线性模型下的收敛性,并利用稳定性边界理论(Arora et al., 2022)证明了NEG能够稳定训练过程。此外,通过合成数据和真实世界数据上的概念验证实验,我们证明了NEG初始化在提升训练效率方面优于其他方法。

相关工作

先前研究广泛探讨了提高深度神经网络训练效率的方法(Pan, Yuan, Yin, Xu, Shang, Jiang, Liu, 2023; Shen, Sun, Yu, Ding, Tian, Tao, 2024; Su, Mei, Xing, Yao, Zhang, Xu, Li, 2024)。常见的技术包括剪枝(Zhuang et al., 2023)、知识蒸馏(Zhang et al., 2019)和分布式协同学习(Hao, Wang, Zhang, Fang, Li, 2023a; Hao, Zhang, Li, 2025b; Hao, Zhang, Li, 2025c)等,这些方法已被有效应用于提升训练效率。

方法论

在本节中,我们首先介绍了一个函数优化框架,以更好地理解渐进式集成学习过程。基于这一框架,我们进一步提出了一种名为归一化额外梯度(NEG)的新初始化方法,以提高渐进式集成学习的训练效率和稳定性。

理论分析

首先,我们对使用我们提出的NEG初始化方法初始化的线性模型进行了收敛性分析。接着,我们通过稳定性边界分析证明了NEG作为稳定训练过程的预处理方法的有效性。

实验

为了验证NEG初始化的有效性和适用性,我们在合成数据和真实世界数据集上进行了全面的概念验证实验。所有实验均使用Pytorch平台上的A100 GPU完成。
我们首先在合成数据上研究了线性模型的情况,采用了平方损失函数。NEG初始化及其两种对比方法(复制初始化和随机初始化)的更新规则已在文中详细描述。

结论

本文提出了一种基于函数优化框架的NEG初始化方法,旨在提升渐进式集成学习的性能。该方法的核心思想是确保扩展后的模型在更高维的损失空间中达到最优性能。我们还提供了简化环境下的收敛性和稳定性分析,并通过实验验证了该方法的实际效果。

附录

在附录中,我们提供了NEG初始化在线性模型下的收敛性证明。

写作过程中使用生成式AI和AI辅助技术的声明

在撰写本文过程中,作者使用了ChatGPT工具进行内容润色。使用该工具后,作者对内容进行了必要的审查和编辑,并对最终发布的成果负全责。

作者贡献声明

吴哲顺:撰写初稿、可视化、验证、软件开发、方法论设计、概念构建。潘宇:验证、软件开发。曾墩:撰写、审稿与编辑。王启帆:撰写、审稿与编辑。徐增林:撰写、审稿与编辑、资源协调。刘杰:监督工作、资金筹措。

利益冲突声明

作者声明没有已知的可能影响本文研究的财务利益或个人关系。

致谢

本工作部分得到了国家自然科学基金(项目编号:62350710797)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号