混合与演化元启发式算法训练单隐藏层前馈神经网络架构：一种超越随机梯度下降的优化策略

【字体：大中小】 时间：2026年03月03日 来源：Journal of Experimental & Theoretical Artificial Intelligence 1.7

编辑推荐：

　　本文综述了训练人工神经网络（ANN）时，随机梯度下降（SGD）面临的高计算成本和易陷入局部最优的挑战，并提出将粒子群优化（PSO）和遗传算法（GA）这两种基于种群的元启发式优化器（MHO）作为替代方案。研究特别开发了一种结合PSO全局搜索与SGD局部细化优势的混合PSO-SGD策略，旨在提升训练效率和精度。结果表明，该方法在不同网络规模下，相对于传统GA和PSO，可将训练均方误差（MSE）中位数降低90%-95%，展现了混合与演化方法在神经网络优化领域的显著潜力。

导言

人工神经网络（ANNs）凭借其在分类、回归乃至图像生成等复杂任务中的卓越表现，近年来实现了显著的复兴。然而，训练ANN是一个计算密集且复杂的过程。主流优化技术随机梯度下降（SGD）依赖于损失函数对可训练参数（权重和偏置）的偏导数，并沿梯度反方向调整参数。此过程虽有效，但对于具有数百万参数的深度网络而言计算量巨大，且由于其局部性，SGD容易陷入局部最优或鞍点。

这些局限性促使研究者探索基于种群的元启发式优化器（MHOs）作为SGD的替代方案。与依赖梯度信息的方法不同，如粒子群优化（PSO）和遗传算法（GA）等MHOs利用全局搜索策略，不依赖于梯度信息，使其对局部最优可能更具鲁棒性，尤其是在较低维的参数空间中。本研究基于以下假设展开：首先，在低维搜索空间（如较小网络）中，局部最优陷阱更为常见，PSO和GA可能超越SGD；其次，PSO和GA的全局搜索效率在低维时更具经济性，但随着维度增加成本升高，而SGD等基于梯度的方法在高维场景下则展现出更好的可扩展性。

本研究的主要贡献包括：评估PSO和GA作为SGD替代方案在回归任务中训练ANN的效果，重点关注更小、更精简的网络设计；提出一种创新的混合PSO-SGD方法，利用PSO的全局搜索能力和SGD的局部精炼来提升训练效率和鲁棒性；全面检验PSO、GA和PSO-SGD在不同网络架构和维度配置下的可扩展性；为构建块假设（BBH）在ANN演化训练框架内的有效性提供经验证据。

相关工作

本节回顾了当前关于演化算法（EAs）、GA和PSO用于训练ANN的研究。我们重点指出了方法学上的不足、在监督学习中应用的局限性以及在高维优化空间中面临的困难，这些都为本文的研究重点提供了依据。

神经演化：将EAs，特别是GA，用于演化ANN参数和架构被称为神经演化。然而，大多数研究集中在强化学习（RL）任务上，在监督学习中的应用有限。随着高性能GPU的普及以及通过SGD实现的反向传播的复兴，基于梯度的优化已成为主导方法，显著削弱了对EAs训练ANN的探索和重视。

遗传算法：在当代深度学习模型中应用GA的一个根本劣势是其可扩展性不足。现代ANN通常包含数百万参数，构成了广阔的优化空间。理论上，GA需要指数级庞大的种群才能充分探索高维空间。尽管有研究表明GA在特定RL任务中可以超越深度Q网络（DQN）和策略梯度（PG）方法，但其实现大多省略了交叉操作——这是传统GA中促进高性能解片段重组的关键要素。此外，先前的研究如遗传自适应神经网络训练（GANNT）算法在小型网络上的结果，由于缺乏全面的超参数优化，其普适性受限。

粒子群优化：尽管PSO在连续优化方面非常有效，但其在ANN训练中的应用一直有限。先前的研究在参数优化和实证严谨性方面存在不足。例如，有研究引入了混合PSO-SGD算法，但与单独技术相比性能提升有限，且其使用的高惯性权重可能导致粒子速度过快，超过搜索空间中的有利区域。另一项研究评估了PSO在乘积单元（PU）网络上的表现，但未纳入基于梯度的基线，限制了PSO优势的可解释性。有研究评估了PSO、GA和SGD在达到指定精度所需函数评估次数方面的表现，其发现与理论预期存在矛盾，突显了优化动力学方面的未解问题。

研究空白与动机：尽管有历史兴趣和初步的积极结果，但关于元启发式优化训练ANN的当代研究仍然受限。可扩展性、参数优化以及与强大基线对比不足等障碍阻碍了其更广泛的应用。随着现代深度学习模型复杂性的增加，探索非基于梯度的方法——特别是通过改进和混合策略——成为一个重要的研究方向。

方法论

本研究提出了一个基于种群的元启发式框架来训练ANN，将训练目标构建为一个高维非线性优化问题。与依赖局部曲率信息且经常陷入多模态目标景观中局部最小值的基于梯度的方法不同，基于种群的元启发式方法有助于更广泛地探索解空间。核心思想是将ANN的可训练参数（权重和偏置）表示为一个高维向量的组成部分，其中每个候选解对应于该m维空间中的一个点。

优化问题在于找到能最小化预定义损失函数的权重向量，对于回归任务，通常使用均方误差（MSE）。本研究采用单隐藏层前馈神经网络架构，并利用非线性激活函数（通常是ReLU）来保证在紧子集上的通用近似能力。

为了克服单个元启发式方法的限制，我们提出了一种混合优化方法，将PSO的全局搜索能力与SGD的局部收敛精度相结合。在标准PSO中，粒子的位置和速度根据特定的动力学方程更新。相反，SGD通过沿着误差函数的负梯度下降来修改权重。为了整合这两种互补的模式，我们为第i个粒子建立了混合更新规则，该规则有效地将确定性的、梯度对齐的下降项嵌入到原本随机的PSO轨迹中。这个混合方程通过利用梯度反馈丰富了群体动力学，使粒子即使在适应度表面的局部平坦或振荡区域也能执行精细调整。

梯度分量的学习率通过对数网格搜索确定，同时保持所有其他PSO参数不变。经验结果表明，学习率设定为10^-5时能产生一致且精确的收敛轨迹，且误差方差可忽略不计。需要指出，混合更新方程有意省略了某些PSO变体中常见的局部最佳（基于邻域）项，这是为了降低计算复杂度并保持算法简洁性。初步实验表明，包含局部最佳项带来的性能增益微乎其微，尤其是在全局收敛趋势占主导的高维设置中。此外，梯度项是针对每个粒子在其自身搜索空间中的位置单独计算的，这确保了每个粒子的更新既受全局搜索动力学影响，也受其自身局部损失景观影响，从而在保持群体多样性的同时增强了精细探索。

实验设置

本节详述了用于评估所提出研究的实验配置、实现细节、终止标准和性能指标。所有模拟和模型实现均在Python中执行，利用了科学计算库的生态系统和深度学习框架PyTorch。实验在Microsoft Azure托管的虚拟机上运行，硬件资源有限。尽管硬件受限，但所有方法都在相同的计算条件下执行，因此比较性见解和观察到的趋势仍然有效且可推广。

本研究的主要假设是：元启发式优化器——特别是PSO和GA——将产生比通过传统SGD训练的子网络具有更低MSE的增强性能。

实验流程：我们通过在合成和实证回归任务上进行基准测试，来评估元启发式算法在复杂优化场景中的泛化能力和收敛特性。在合成类别中，我们使用了三个连续可微函数——Rastrigin、Styblinski-Tang和Sphere函数，这些函数被公认为进化计算大会（CEC）基准套件的标准组成部分。每个函数旨在封装独特的难度特征，包括模态、可分离性和曲率。此外，为了保证实际相关性，我们还在联合循环发电厂（CCPP）数据集和翼型自噪声（AFSN）数据集上进行了评估。所有输入都归一化到[0, 1]^d以确保有界性并促进训练收敛。

此外，我们还研究了模型复杂度的影响，通过改变网络中的隐藏层数量。这使得我们能够探索每种方法在参数空间扩展时的可扩展性。输入维度最初设定为10，但随后因计算限制减少到5。测试评估了在保持数据集大小不变的情况下增加输入宽度的影响，这间接评估了模型在输入覆盖减少情况下的泛化能力。

实现细节：

1.
数据生成：CEC基准任务的输入数据通过均匀随机采样在[0, 1]ⁿ域内生成，使用固定随机种子以确保一致性和可重复性。每个CEC问题使用1000个样本进行评估。
2.
参数设置：所有MHO的种群大小设置为25。候选解通过Xavier初始化进行初始化，权重从正态分布N(μ=0, σ²=1/m²)中采样。在随机突变爬山法（RMHC）和GA过程中，向候选权重添加高斯噪声以模拟突变，方差σ²=0.001时表现最佳。SGD的学习率通过参数扫描设定为0.1。
3.
终止标准：终止条件分为两类：内在条件和外在条件。内在条件包括饱和、停滞和发散。然而，仅凭内在条件不够精确，因此使用了外在条件——最大迭代次数和函数评估次数（FEs）。每种方法最多允许150次迭代或3,750,000次函数评估。

评估指标：主要性能指标是每种方法达到的最终训练MSE。由于初步研究表明大多数设置中训练和测试MSE差异极小，因此除非特别说明，仅报告训练MSE。

基线：为了丰富PSO和GA的性能背景，使用了两种基线优化技术——随机搜索（RS）和随机突变爬山法（RMHC）。这些方法作为下界基线，便于在统一的实验条件下评估搜索复杂性和元启发式方法的有效性。此外，基线比较还扩展到了广泛使用的基于梯度的优化器（如Adam和RMSProp）以及两种最近的仿生方法（蝠鲼觅食优化（MRFO）和山瞪羚优化（MGO）），详细结果见附录。

实验结果

本节展示了实验结果的代表性样本。我们从三个维度考察了缩放的影响：隐藏层数量、输入层宽度以及在非CEC基准问题上的性能。对于每种配置，我们呈现了四次独立试验得出的中位数MSE。

合成分析：结果表明，当以函数评估（FEs）作为停止条件时，SGD对于最多5个隐藏层的小型网络是有效的。在中等规模网络（5-20层）中，MHOs、SGD和RMHC之间没有明确的优势方法。在超过20层的更深网络中，除RS外的所有训练方法都收敛到相似的MSE值。

当以迭代次数作为停止标准时，PSO和PSO-SGD在小型和中等规模网络中优于其他方法。在更大的网络中，所有方法表现出相似的性能，表明这些趋势并非特定于任何问题，且在CEC基准案例中保持一致。值得注意的是，在许多配置中，特别是对于更深层的网络，不同的训练方法达到了几乎相同的MSE。此外，所有训练方法持续超越RS，强调了所发现的有益解归因于基础优化算法的有效性而非偶然。

实证分析：使用基于FE的停止标准对不同输入宽度的结果显示，SGD在所有目标问题上始终表现出更高的准确性，比在深度缩放研究中更明显地优于其他方法。与第3节的预测相反，最终MSE并未随着输入宽度的增加而持续上升。值得注意的是，对于Rastrigin问题，增加输入宽度导致所有方法（包括SGD、RMHC和RS）的MSE降低。在Sphere和Styblinski-Tang情况下也观察到类似模式，但PSO和PSO-SGD方法在Styblinski-Tang情况下，在FE约束下表现出更高的MSE。这些趋势表明，与深度缩放不同，输入宽度缩放并未实现训练方法的收敛，导致无论终止标准如何，性能差异持续存在。

在基于迭代终止的情况下，PSO-SGD在中小型网络中表现出色，而SGD在更大架构中表现出更高效能。值得注意的是，这与深度缩放的结果形成对比，在深度缩放中，中型网络范围内没有出现主导方法。这些结果进一步证实，缩放深度和缩放宽度表现出根本不同的性能特征。所有方法都持续超越RS，证实了搜索程序的有效性。

非CEC目标问题分析：在AFSN问题上，使用FE和基于迭代的停止方法，PSO-SGD和GA with crossover通常表现良好。在CCPP问题上也观察到类似趋势。在所有配置中，带交叉的GA显著优于不带交叉的GA，这加强了模式整合在提升性能方面的有效性。这为ANN训练的构建块假设（BBH）提供了支持，并强调了特定权重组合之间潜在的协同作用，尤其是在更深的网络中。RMHC在基于迭代终止时未能复现在CEC基准测试中的先前性能。RS算法在某些问题中表现出与替代技术相当的性能，这表明有效解在搜索区域内并不罕见，使得在不同优化方法之间进行明确区分变得复杂。

同时，尽管引入了Adam、RMSProp、MRFO和MGO等现代优化器，整体结论与我们的早期发现保持一致。在浅层网络中，Adam和RMSProp实现了略低的MSE值，但随着网络深度增加，这一优势减弱。从7层开始，PSO-SGD始终获得最低的误差值，而Adam和RMSProp保持在较高的区间。仿生基线MRFO和MGO偶尔表现出有竞争力的案例，但通常显示出更高且更不稳定的MSE值。这些数值趋势表明，随着模型复杂性增加，PSO-SGD保持了最可靠的性能，强化了其对中型和深度架构的适用性。

讨论

本研究揭示了关于不同训练算法效能的多个重要发现。主要的元启发式方法，包括PSO和GA，持续超越RS，而RMHC也表现出强劲的性能。RMHC的效能可能归因于其持续向解中引入噪声，类似于没有交叉和选择机制的GA的操作。尽管其采用单一解决方案方法且缺乏基于群体的动态，但在使用基于FE的终止标准时，RMHC表现出稳健的结果，尽管其性能在迭代次数方面成本高昂。这可以通过在长时间迭代中有利突变的概率增加来解释，表明基于噪声的方法在特定终止条件下可能具有竞争力。

值得注意的是，在不同配置中，PSO和PSO-SGD之间几乎没有区别，这表明梯度信息的整合并未一致地改善优化过程。然而，PSO-SGD在特定情况下超越了PSO，特别是对于网络宽度不同且终止标准由迭代决定的情况。这表明，结合全局搜索和梯度引导的混合方法可能对中小型网络更有利，尽管这一现象的原理尚不完全清楚。此外，在所有配置中，带交叉的GA显著优于不带交叉的GA，这证实了模式整合在提升性能方面的有效性。这为ANN训练的BBH提供了支持，并强调了特定权重组合之间潜在的协同作用，尤其是在更深的网络中。增强的性能可能归因于在交叉过程中消除了非有利模式，从而减轻了劣质子解决方案的“搭便车”现象。该研究最初计划评估训练和测试MSE，但由于大多数配置中差异极小，该策略被放弃。这表明对于CEC类型的情况，网络能够熟练地学习和泛化问题，没有过拟合或欠拟合的迹象。因此，SGD的替代技术并未对网络的泛化能力产生不利影响——这是一个令人鼓舞的结果。

需要指出，在更深网络中观察到的性能饱和似乎受多种因素影响。首先，优化景观在更高深度时变得越来越平滑，一旦达到阈值容量，可能会限制不同优化器的进一步改进。其次，所考虑的任务——特别是来自CEC基准套件的任务——可能不够复杂，无法充分利用更深架构的全部表示能力，从而导致收益递减。最后，多种算法收敛到相似的MSE值表明，优化限制，而非模型表达能力，是制约进一步改进的主要因素。

局限性

必须认识到一些限制。Xavier初始化方法在网络深度增加时表现出局限性。虽然这可能没有影响相对比较，但它仍然是绝对性能评估的一个因素。由于硬件限制，本研究未将处理时间作为参数，这阻碍了为每种方法分配专用CPU资源。这限制了对训练方法时间效率的推断，而这在许多实际应用中是一个关键因素。使用MSE作为性能指标增加了对大误差的偏向，可能扭曲评估。未来研究中，基于百分比正确率的指标可能提供更公平的评估。此外，有限的计算资源将每次配置的试验次数限制在四次，可能给结果带来了噪声。尽管报告中位数MSE，但更多的试验可以提高结果的稳定性。

本工作也受到其仅关注ANN内回归问题的限制。结果可能不适用于其他问题领域，如分类任务或卷积神经网络（CNN）设计，这些在当代机器学习研究中很常见。缺乏在MNIST等标准化基准上的评估，限制了这些发现与其他研究的可比性。后续研究应探索更广泛的问题类型和网络设计，以及基准数据集，以增强对所建议方法泛化能力的评估。该研究也未探讨多样化的元启发式变体。扩展内容包括带收缩因子的PSO、GA中的岛屿模型以及自适应参数调优等尚未分析。在训练后期阶段强调PSO-SGD中的梯度项可能会增强收敛。这些改进可能带来更高效的训练，并需要进一步探索。此外，尽管超参数通过多次试验针对特定配置进行了优化，但它们对替代设置的适用性仍然不明确。由于计算资源有限，跨配置的全面超参数调整不切实际，而这在后续研究中将是有益的。

结论与未来工作

本研究检验了MHO策略作为SGD在不同回归任务中训练ANN的可行替代方案。我们的研究表明，在特定条件下——特别是在较浅或较薄且

热点排行