深度神经网络已被广泛应用于计算机视觉、自然语言处理、推荐系统、多模态学习以及复杂数据流等多个领域(Devlin, Chang, Lee, Toutanova, 2019; Hao, Li, Guo, Xu, 2025a; Hao, Wang, Zhang, Feng, Li, Chong, Pan, Li, 2023b; Hojjati, Ho, Armanfard, 2024; Raffel, Shazeer, Roberts, Lee, Narang, Matena, Zhou, Li, Liu, 2020),并在各种任务中表现出色。随着数据集规模、模型规模和计算资源的增加,实证研究表明模型性能持续提升(Wang, Ye, Zhao, Wu, Li, Song, Xu, Kraska, 2018a; Zhai, Kolesnikov, Houlsby, Beyer, 2022)。然而,训练这些大规模模型仍然非常耗费资源且难度不断增加(Shen et al., 2024)。
为了解决这些问题,一种常用的训练策略是渐进式训练,即从简单的小模型开始,通过多个阶段逐步添加模块来扩展模型。渐进式训练的一个重要应用是渐进式集成学习(Chen, Guestrin, 2016; Friedman, 2001),该方法通过分阶段构建基础模型、分类器(Ganaie et al., 2022)或专家模型(用于Mixture-of-Experts, MoE, Allingham et al., 2021)的集成。
最近的研究表明,有效的初始化策略能够显著提升渐进式集成学习的训练效率(Agarwal et al., 2024)。在渐进式集成学习中,复制初始化(copy initialization, Gong et al., 2019)是一种被广泛采用的方法,它通过将现有模型的参数复制到新添加的模块中来创建新模块。然而,从函数优化的角度来看,复制初始化仅利用了有限的梯度信息(Agarwal, Awasthi, Kale, & Zhao, Mason, Baxter, Bartlett, Frean, 1999),这可能会影响训练的稳定性。此外,复制初始化还可能因结构突变导致训练不稳定(Noci et al., 2022)。因此,我们致力于开发新的初始化方法以提高渐进式集成学习的训练效率。
NEG初始化为了解决这些问题,我们提出了一种名为归一化额外梯度(NEG)的初始化方法,专门用于渐进式集成学习。该方法基于函数优化的视角,利用从现有模块计算出的归一化负梯度来初始化新添加的模块。通过函数优化理论,我们证明了NEG在线性模型下的收敛性,并利用稳定性边界理论(Arora et al., 2022)证明了NEG能够稳定训练过程。此外,通过合成数据和真实世界数据上的概念验证实验,我们证明了NEG初始化在提升训练效率方面优于其他方法。