双向加速自适应矩估计在深度神经网络中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Bidirectional Accelerated Adaptive Moment Estimation for Deep Neural Networks

【字体：大中小】 时间：2026年03月18日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　本文提出双向加速自适应矩估计（BIadam）优化算法，通过在Adam框架中引入双向差分梯度估计机制，有效提升梯度估计精度与稳定性。理论分析证明其非凸优化收敛速度为O(1/T)，实验表明在分类任务中准确率提升1.50%，回归任务R2值提高5.75%，物理信息神经网络（PINNs）损失降低93.71%，并优于Adam等主流优化器。

作者：Lou Yuanzheng、Shen Yuqiu、Khan Majid Ahmed、Zhao Mengjia、Dai Fangdan、Shan Xu、Wang Jianhong、Weng Jiacheng

单位：南通大学数学与统计学院，中国南通 226019

摘要

在深度神经网络（DNN）中，传统的基于梯度的优化器（如自适应矩估计器Adam）存在固有局限性，包括收敛效率低、难以收敛到全局极值点等问题。这些问题常常导致神经网络过早停滞或无法收敛。为了解决这些关键问题，我们提出了一种新的双向加速Adam（BIadam）算法，该算法将双向差分机制整合到Adam框架中，以提高梯度估计的准确性和稳定性。理论分析和数值模拟表明，与传统优化器相比，BIadam具有更快的收敛速度和更高的收敛精度。实验结果表明，在多任务场景中，BIadam优化器的性能全面优于传统优化器：在分类任务中准确率提高了1.50%，在回归任务的R2值上提高了5.75%。在物理信息神经网络中，与传统模型相比，BIadam分别将损失和误差降低了93.71%和75.64%；在Transformer任务中，其R2值和准确率也显著优于其他优化器。BIadam的代码可访问地址为：https://github.com/LYZ-NTU/BIadam.git

引言

深度神经网络（DNN）在生物学[1]、医学[4]、计算机视觉[7]、图像识别[10][11][12]等多个应用领域取得了突破性进展。这些模型的成功在很大程度上依赖于高效的优化算法，以确保训练的稳定性和快速性。随着卷积神经网络（CNN）[13]和物理信息神经网络（PINN）[14]等神经网络架构的不断发展，深度学习的能力得到了极大扩展。然而，尽管架构发展迅速，优化算法的进步速度却较为缓慢[15]。大多数优化器仍然依赖于梯度下降框架，这种框架在处理复杂或噪声数据时常常存在收敛速度慢、梯度振荡和性能不佳的问题[16]。

优化算法旨在通过基于梯度的参数更新来最小化损失函数。SGD[17][18]、AdaGrad[19]、RMSProp[20]、Adam[21]等经典算法为深度学习的优化奠定了基础。其中，Adam因其自适应学习率和稳健的实证性能而成为主流优化器[22]。尽管Adam效果显著，但它对即时梯度信息的依赖性往往导致不稳定性和泛化能力下降，尤其是在长期训练和非凸优化场景中。一些变体算法（如DMAdam[23]）通过引入双重平均机制来平衡稳定性和收敛速度；CNadam[24]通过循环学习率和梯度范数约束来加速收敛；HN-Adam[25]根据梯度的范数自动调整步长；AdaVAM[26]利用过去梯度的方差对当前梯度进行动态归一化；RBC-Adam[27]在在线学习环境中通过随机块坐标更新来提高效率；AdaDB[28]将学习率限制在数据依赖的动态范围内。然而，大多数改进仍然受限于基本的梯度估计机制。

为了解决这些局限性，提高梯度估计质量成为设计更稳定、更精确优化器的关键挑战。近年来，双向差分方法在提高数值稳定性和收敛速度方面显示出巨大潜力。作为一种数值微分技术，双向差分利用来自前后方向的信息来近似某点的导数，已在机器学习和时间序列分析中得到成功应用。例如，Shen等人[29]开发了季节性双向差分自回归移动平均（SARCIMA）模型来预测发电量；Wang等人[30]提出了基于双向差分的斜率稳定性方法；Wang等人[31]提出了多尺度双向差分卷积（MSCDC）网络用于高光谱异常检测；Linders等人[32]、Sun等人[33]和Feng等人[34]证明了其在高频波模拟、图像变化检测和泊松方程求解中的高精度和稳健性。双向信息的有效性也在混合模型设计中得到了验证。Tian等人[35]提出了结合双向和多尺度结构的BiMT-TCN混合框架，以提高预测准确性和稳健性。这些工作共同展示了双向差分技术在复杂计算场景中的可靠性和通用性。

受这些启发，本文介绍了双向加速自适应矩估计（Bladam）算法，该算法将双向差分机制整合到Adam框架中。通过用双向差分梯度替换即时梯度，Bladam利用来自两个方向的信息来实现更平滑、更精确的更新。理论和实验结果表明，与主流优化器相比，Bladam显著提高了收敛效率、稳定性和泛化能力。本文的主要贡献如下：

•
我们将双向差分的概念系统地嵌入到Adam优化框架的核心中，设计了全新的优化器，并比较了不同算法在四个基准函数上的实证性能。
•
我们在标准的随机非凸优化设置下对所提出的算法进行了严格的收敛性分析，证明了其收敛速度可以达到 $O (\frac{1}{T})$
，为算法的有效性提供了坚实的理论基础。

•

我们在深度学习任务（包括回归和分类任务）以及基于PINN的偏微分方程（PDE）求解问题上，对BIadam进行了实证测试。实验结果表明，BIadam在稳定性和收敛速度上优于其他算法，证明了其潜力和价值。

本文的其余部分安排如下：第2节介绍经典优化算法和梯度估计；第3节提出BIadam算法；第4节详细证明BIadam的收敛性和收敛精度；第5节使用多个测试函数评估BIadam算法，并将其与几种主流优化器进行比较；第6节将BIadam算法应用于各种神经网络的分类任务、回归任务和PDE求解；第7节总结全文。

初步介绍

预备知识

在本节中，我们首先介绍Momentum算法和Adagrad算法，并讨论了结合这两种算法的Adam算法。然后，我们讨论了深度学习中仍然存在的一些问题。

双向差分

在优化问题中，梯度估计直接影响更新步长和参数更新的方向。传统的Adam算法使用梯度进行估计，容易受到噪声和稀疏梯度的影响。为了解决这些问题，本文提出了BIadam算法来改进传统的Adam算法。因此，本节首先详细阐述前向差分、后向差分和双向差分的定义。

定义1

设

非凸函数的收敛性分析

在本节中，我们将对BIadam在非凸函数上的收敛性进行分析。我们将使用期望方法进行证明。对于函数f(x)，我们考虑非凸随机优化情况。

\min_{x \inR^{d}} f (x) = E_{ξ} [f (x, ξ)

其中x是待优化的模型参数，ξ是从某个未知概率分布中抽取的随机变量。为了简化后续的收敛性分析，我们将BIadam算法的步骤重新表述如下：

数值实验

在本节中，我们使用四个基准函数对Bladam与其他七种优化器进行了性能比较。这些优化器包括经典的Adam、Adagrad[39]、Nadam[40]、Amsgrad[41]，以及最近提出的先进优化器Adan[42]、Sophia[43]和Lion[44]，它们通常用于非凸函数场景。

所有实验均使用Python 3.13作为编程语言，并使用了深度学习库。

深度神经网络训练的应用

在前面的章节中，我们探讨了BIadam的收敛特性。在此基础上，通过基准函数验证了BIadam的稳健收敛性能。为了进一步评估BIadam在训练DNN中的实际效用，本节将在三个类别的深度学习任务中进行额外评估。

结论

本文提出了BIadam优化器，这是一种自适应优化方法，它用双向加速Adam替换了Adam中的传统梯度项。理论分析表明，BIadam具有更高的准确性和收敛速度。实验表明，BIadam的收敛速度为

O \frac{1}{T}

。

在测试函数上的实验表明，与其它七种优化器相比，BIadam在双向加速策略上的收敛速度更快，并且能够收敛到全局极值。

CRediT作者贡献声明

Lou Yuanzheng：撰写 – 审稿与编辑、原始稿撰写、软件实现、资源准备、方法论设计、调查研究、数据整理、概念构思。Shen Yuqiu：软件实现、资源准备、项目管理、方法论设计、调查研究、概念构思。Majid Ahmed Khan：验证工作、监督指导、方法论设计、概念构思。Mengjia Zhao：原始稿撰写、监督指导、调查研究、概念构思。Fangdan Dai：监督指导、方法论设计、数据整理、概念构思。Xu Shan：

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究工作。

致谢

作者感谢匿名审稿人的建设性意见和评论，这些意见和评论显著提升了本文的质量。本工作得到了国家自然科学基金（项目编号62473215）和江苏省基础研究计划（项目编号BK20251914）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号