将“前向-前向”算法推向高性能的深度局部学习

【字体: 时间:2026年02月28日 来源:Neural Networks 6.3

编辑推荐:

  深度局部学习前向前向算法的优化与扩展研究,提出基于距离度量的前向前向改进算法DF,融合N-pair边距损失和分层协作更新策略,提升监督学习性能并降低40%内存成本,支持突触神经网络高效事件驱动计算。

  
徐思源|吴玉洁|吴继斌|邓雷|徐明坤|文庆浩|李国奇
中国香港理工大学计算机系

摘要

最近提出了前向-前向(FF)算法作为一种局部学习方法,以解决反向传播(BP)的局限性,提供了一种内存效率高且高度可并行化的替代方案。然而,由于缺乏有效的学习策略,该算法在许多复杂任务中的性能并不理想,泛化能力也较差。在这项工作中,我们利用距离度量学习重新设计了FF算法,并提出了一种距离前向算法(DF),在保持其局部计算优势的同时提高了FF在监督学习任务中的性能。为此,我们通过基于质心的度量学习视角重新解释了FF算法,并开发了一种基于优度的N对边际损失函数来促进判别特征的学习。此外,我们整合了层间协作局部更新策略,以减少贪婪的局部参数更新导致的信息损失。最后,我们通过为时间脉冲序列开发有效的优度函数,将我们的方法扩展到了脉冲神经网络(SNN)中,从而实现了在神经形态硬件上的高效事件驱动实现。我们在八个数据集上的全面评估表明,所提出的方法优于现有的FF模型和其他局部学习方法。特别是,与BP训练相比,我们的DF方法所需的内存成本不到40%,同时对多种类型的硬件相关噪声具有更强的鲁棒性。总体而言,所提出的方法提供了一种高效且鲁棒的局部学习解决方案,这可能为未来的FF算法设计提供灵感,并促进在多核硬件架构上的应用。

引言

目前大多数深度学习算法都是使用端到端的方式通过反向传播(BP)进行训练的(Jaiswal等人,2020年;Li等人,2021年;Qi和Su,2017年;Rippel等人,2015年;Sohn,2016年),其中训练损失在顶层计算,权重更新基于向下流动的梯度得出。这一过程引入了众所周知的更新锁定问题,并存在两个关键的训练效率问题(Hinton,2022年;Lillicrap等人,2016年)。首先,由于需要存储每一层的中间激活值以计算梯度,因此会带来较高的内存成本。其次,由于每一层都依赖于前一层计算的梯度,训练速度会变慢。这一计算特性也限制了多核硬件架构(如新兴的神经形态芯片Orchard等人,2021年;Pei等人,2019年)的并行分布式处理能力,从而阻碍了高效硬件实现。
相比之下,人类大脑以更高效、局部化的方式执行突触学习,无需等待其他脑区的神经元完成它们的处理(Magee和Grienberger,2020年;Shen等人,2025年)。认识到这种高效的替代方案,Hinton提出了前向-前向(FF)算法(Hinton,2022年),它提供了一种有效的逐层学习方法,用两次前向传递替代了传统的反向传播。FF展现出许多迷人的计算特性,从生物学习和训练效率的角度都引起了人们的兴趣。首先,与生物神经系统类似,FF的学习过程是局部的,主要基于直接调整神经元活动——根据不同类型的输入模式增强或减少活动。其次,FF不需要完美了解前向传递的计算过程,即使某些网络模块未知,学习也可以继续进行。第三,FF消除了在每个模块计算后存储中间激活值的必要性,显著降低了训练期间的内存需求。这促进了许多深度网络架构中的模型并行性,从而加快了训练和推理速度。
尽管FF具有吸引人的计算特性,但在许多复杂数据集上的性能仍然不佳。最近,从不同角度提出了几种改进FF的方法,例如使用组卷积操作(Papachristodoulou等人,2024年),整合可学习的嵌入表示来表示标签信息(Dong和Shen,2018年),适应边缘应用(Baghersalimi等人,2023年;Pau和Aymone,2023年),或应用对比学习技术(Aghagolzadeh和Ezoji,2024年;Ahamed等人,2023年)。然而,它们的性能仍然无法与其他先进的局部学习方法竞争(Journé等人,2022年;Ma等人,2023年;Wang等人,2020年),并且目前还缺乏对基于FF的方法与BP的实际计算优势的全面评估。
在本文中,我们提出了一种距离前向(DF)方法,以改进FF在监督学习任务中的高性能深度局部学习。通过将FF重新定义在距离度量空间框架内,我们为FF提供了透明的几何解释,有助于理解其计算原理并指导模型设计。基于这一定义,我们引入了DF方法,该方法采用基于优度的N对边际损失函数(包括正则化项的完整公式见方程(7))来促进判别特征的学习。我们进一步结合了层间协作策略,以平衡任务准确性和计算效率。DF方法灵活支持脉冲神经网络和非脉冲神经网络模型。我们在八个数据集上的评估表明,DF的性能优于现有的基于FF的方法,对多种硬件相关噪声具有很强的鲁棒性,并保留了相对于BP方法的局部计算优势。

相关研究

对比损失和距离度量学习。 距离度量学习(或简称度量学习)构建了特定于任务的距离空间,使得同一类别的数据样本在度量空间中彼此接近,而不同类别的数据样本则相距较远。设计合适的对比损失(CL)对于度量学习至关重要。基于这一框架,三元组损失(Dong和Shen,2018年)通过评估

方法

在本节中,我们介绍了DF方法,该方法通过利用距离度量学习原理来增强FF算法的性能,同时保持局部计算特性。与直接操作绝对度量距离的FF(图1B)不同,DF结合了相对距离和绝对距离,并挖掘多个正负样本之间的距离分布,以促进判别特征的学习(图1D)。

结果

在本节中,我们全面评估了所提出的DF方法的性能,包括它们学习有效层次化特征表示的能力、超参数对准确性的影响、对具有稀疏事件驱动计算的高效脉冲模型的支持,以及与BP方法相比的计算效率和鲁棒性。我们在八个基准数据集上进行了实验,将我们的方法与端到端的BP学习、基于FF的变体进行了比较

讨论与结论

我们提出了DF方法,这是一种改进的FF方法,用于推进监督学习任务的高性能深度局部学习。DF整合了数据挖掘技术和层间协作梯度更新策略,旨在提取判别特征,同时保留局部学习的计算优势。我们的广泛实验确认,DF可以增强基于FF的方法,达到与其他近期局部学习方法相当的结果。此外,我们还展示了DF可以

未引用图表

表1

CRediT作者贡献声明

徐思源:概念化。吴玉洁:撰写——原始草稿、形式分析、数据整理。吴继斌:撰写——审阅与编辑、方法论。邓雷:撰写——审阅与编辑。徐明坤:方法论。文庆浩:撰写——审阅与编辑。李国奇:撰写——审阅与编辑、监督、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了香港理工大学在2025/26年度资助的Project P0058180、PP0055934和PolyU15217625项目以及北京中国脑研究所的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号