融合自适应与动量的混合预条件梯度方法(HAdapGradm):一种面向深度学习的高效二阶优化新策略

《Neural Networks》:A hybrid adaptive preconditioned gradient method with momentum for deep learning

【字体: 时间:2026年02月24日 来源:Neural Networks 6.3

编辑推荐:

  本文介绍了一种名为自适应预条件梯度动量法(AdapGradm)的新型二阶自适应优化器,及其混合版本(HAdapGradm)。该方法通过一阶导数构造对角近似Hessian矩阵,在保持与Adam相当计算效率的同时捕获二阶曲率信息。实验表明,HAdapGradm在图像分类与自然语言处理任务中,相比Adam等基线优化器,实现了更低的训练误差和更优的泛化能力。

  
高亮 (Highlight)
本文提出了两种用于深度学习的新型优化器:自适应预条件梯度动量法(AdapGradm)及其混合版本(HAdapGradm)。AdapGradm创新性地融合了拟牛顿法、梯度裁剪技术和指数移动平均估计器的思想,仅基于一阶导数构建了一个对角近似Hessian矩阵。这一设计使AdapGradm能够在保持与一阶优化器(如自适应矩估计Adam)相当的计算效率的同时,捕捉损失函数的二阶曲率信息。更重要的是,我们提出了混合型HAdapGradm,它能够在训练过程中从AdapGradm平滑过渡到随机梯度下降(SGD)。我们在温和的条件下严格证明了AdapGradm和HAdapGradm的收敛性。最后,通过在图像分类和自然语言处理相关应用任务上训练三种常见神经网络架构来评估这些优化器的性能。结果表明,与Adam及基线优化器相比,HAdapGradm取得了更小的训练误差,并展现出更优越的泛化性能。
结论 (Conclusion)
在本文中,我们为深度学习提出了两种优化器:自适应预条件梯度动量法(AdapGradm)及其混合版本(HAdapGradm)。AdapGradm创新性地结合了拟牛顿法、裁剪技术和指数移动平均估计器,基于一阶导数构建了对角近似Hessian矩阵。这一设计使AdapGradm能够捕捉二阶曲率,同时维持着与Adam等一阶优化器相当的计算效率。此外,我们提出的HAdapGradm在迭代过程中逐渐从AdapGradm过渡到随机梯度下降(SGD)。通过融合AdapGradm和SGD的优势,HAdapGradm旨在同时提升训练效率和模型的泛化能力。我们还在宽松的条件下(无需损失函数的凸性假设)严格建立了AdapGradm和HAdapGradm的收敛性。数值模拟在三种典型的神经网络模型上进行,以评估所提优化器的性能。模拟结果表明,在所有测试中,HAdapGradm都达到了最小的训练误差,并且在泛化能力上优于基线优化器。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号