通过自适应变换的标准化梯度进行的一阶优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Evolutionary Learning and Optimization》：First-Order Optimization through Adaptively Transformed Normalized Gradients

【字体：大中小】 时间：2026年02月16日 来源：ACM Transactions on Evolutionary Learning and Optimization

编辑推荐：

　　第一类优化算法融合了进化策略和拟牛顿方法的元素，提出了一种具有严格递增函数值变换不变性的无约束优化的一阶方法。该算法通过在线调整线性变换矩阵来适应后续梯度的方向关系，在非二次问题上相比BFGS和信任域方法减少了约10%的函数评估次数，尤其在128维高斯分布测试中表现优异。实验显示算法对梯度噪声具有鲁棒性，但对计算复杂度敏感，其矩阵平方根运算导致维度受限。

摘要

本文提出了一种一阶优化方法，该方法结合了多种进化策略的元素，能够在函数值严格递增的变换下保持不变性。该算法对归一化的梯度向量进行线性变换，这种变换是根据连续梯度的方向来调整的。在计算机实验中，发现该方法在求解非二次问题时，所需的函数评估次数比拟牛顿算法和信赖域方法更少，且往往能够接近最优解。

AI总结

AI生成的摘要（实验性)

本摘要是由自动化工具生成的，并非由文章作者撰写或审核。它旨在帮助读者发现研究的价值、评估其相关性，并协助来自相关研究领域的读者理解本文内容。它是对作者提供的摘要的补充，作者提供的摘要仍是文章的正式摘要。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

AI生成的摘要

该摘要由基于已发表文章内容的自动化系统生成。

生成日期：2026年1月31日。

本研究提出了一种名为ATNG的一阶优化算法，它结合了拟牛顿方法和进化策略的元素，用于最小化无约束目标函数。该算法能够适应函数值的严格递增变换，因此比BFGS等标准方法更具鲁棒性。

ATNG的关键创新在于它如何使用自适应学习的线性变换来处理归一化的梯度向量。与依赖函数变换后梯度幅度的方法不同，ATNG仅使用梯度方向。这是通过维护一个变换矩阵G和一个标量参数zeta来实现的，这两个参数会根据连续归一化梯度向量之间的关系进行更新。变换矩阵的更新是通过一个受进化策略中协方差矩阵调整启发的公式来完成的，从而确保矩阵始终保持正定性，而无需额外的约束。

ATNG通过增加由连续步骤之和形成的方向的尺度，同时减小由它们之差形成的方向的尺度来调整其变换矩阵。整体尺度参数会根据连续梯度方向之间的角度进行调整：当梯度方向相似时增大尺度，当梯度方向分散时减小尺度。这些设计选择使算法能够逐步学习问题的结构。

实验评估将ATNG与BFGS和信赖域方法在多个测试问题上进行了对比。在二次问题上，BFGS的表现明显优于ATNG，这是预期之中的，因为拟牛顿方法本来就是为了近似二次函数的Hessian矩阵而设计的。然而，在非二次问题上，尤其是在高维情况下，ATNG通常表现出更好的性能。例如，在128维的Ostermeier椭球问题上，ATNG所需的函数评估次数仅比BFGS多10％，而在二维情况下这一差距为7倍。

一个特别有说服力的例子是使用幂函数对Ostermeier椭球进行变换后的结果。ATNG所需的函数评估次数与变换参数无关，而BFGS和信赖域方法的性能则显著下降。这验证了算法的理论不变性。

对含噪声梯度的测试表明了ATNG的另一个优势：由于ATNG在使用前会对向量进行归一化，因此完全不受梯度幅度噪声的影响，而BFGS和信赖域方法则会受到严重影响。即使是方向噪声也会导致BFGS立即失效，而ATNG的性能只会逐渐下降。

在101个多样化的测试问题上，ATNG在单峰非二次问题上表现出明显优势，在多峰问题上性能与之相当。与BFGS相比，其性能优势随着问题维度和初始点与最优解距离的增加而增强。

主要限制是计算成本，由于每次迭代都需要计算矩阵的平方根，因此计算成本随问题维度的增加而呈立方增长。这限制了ATNG的应用范围，使其仅适用于中等维度的问题。未来的工作应该开发出内存需求较低的变体，以实现大规模应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号