《Frontiers in Neuroscience》:Overcoming quadratic hardware scaling for a fully connected digital oscillatory neural network
编辑推荐:
本综述聚焦于数字振荡神经网络(ONN)的硬件实现挑战与创新。传统全连接ONN存在耦合硬件随网络规模呈二次方增长的瓶颈,严重限制了其可扩展性。本文提出了一种新颖的混合架构,通过在耦合元件中平衡串行化与并行性,成功将硬件资源扩展性从二次方(O(N2))降低至近线性(约O(N1.2))。基于FPGA(现场可编程门阵列)的仿真验证表明,该架构在Zynq-7020平台上实现了506个全连接振荡器,相比现有递归架构规模扩大了10.5倍,同时保持了在模式检索等关联记忆任务中的高性能。这项工作为实现大规模、高能效的振荡神经网络计算迈出了关键一步。
引言
随着人工智能(AI)计算需求的激增和冯·诺依曼架构瓶颈的凸显,寻求高能效、大规模并行的新型计算范式变得至关重要。振荡神经网络(ONN)作为一种受霍普菲尔德神经网络(HNN)和伊辛模型启发的能量最小化网络,因其在关联记忆(如图案识别)和解决组合优化问题(如最大割、图着色)方面的潜力而受到广泛关注。传统上,ONN主要在模拟域实现以利用耦合振荡器的复杂动力学。近年来,数字ONN的实现开始出现,但其全连接架构面临耦合硬件资源随振荡器数量N呈二次方(O(N2))增长的严峻挑战,这限制了网络规模的扩大。
材料与方法
振荡神经网络基础
ONN是由耦合振荡器组成的全连接网络,其动力学可由哈密顿量(H)最小化或相位锁定环耦合振荡器的微分方程描述。在关联记忆应用中,每个振荡器代表图案中的一个像素,通过迪德里希-奥珀I(Diederich-Opper I)学习规则将图案嵌入耦合权重(Jij或Wij)中。给定一个受损图案作为初始相位条件,网络通过相位演化自然收敛到能量最低的已记忆图案。
现有递归ONN架构及其挑战
现有的数字ONN采用递归架构,每个振荡器配备一个并行算术电路,用于计算来自其他所有振荡器输出信号的加权和,以生成参考信号来调整自身相位。振荡器本身由循环移位寄存器实现,产生方波信号。该架构的主要瓶颈在于,其算术电路(主要由加法器构成)的数量与振荡器数量N的平方成正比,导致硬件资源(如查找表LUTs和触发器FFs)呈二次方增长。
提出的混合ONN架构
为了克服二次方扩展瓶颈,本文提出了一种混合架构。其核心思想是将原本并行的加权和计算过程进行串行化。具体而言,为每个振荡器配备一个累加器和一个复用器,在一个更快的时钟域内,分时复用单个加法器来依次处理与其他振荡器的连接权重。耦合权重存储在可寻址的内存(如FPGA的块RAM)中。这种设计将算术电路硬件资源的需求从O(N2)显著降低至近线性O(N log N)。代价是振荡频率会因串行计算所需的额外时钟周期而降低,形成了网络规模与运算速度之间的权衡。
结果
资源可扩展性分析
在Zynq-7020 FPGA平台上,使用5位权重和4位相位的量化条件下进行测试。递归架构的查找表(LUT)使用量缩放阶数约为2.08(二次方),触发器(FF)使用量缩放阶数约为2.39。而混合架构的LUT和FF使用量缩放阶数分别约为1.22和1.11,表现出近线性缩放特性。混合架构成功实现了506个全连接振荡器,比递归架构的最大规模(48个振荡器)提升了10.5倍。
性能权衡
虽然混合架构的资源扩展性更优,但其振荡频率随网络规模增大的下降速度(缩放阶数约-1.35)快于递归架构(约-0.46)。分析表明,在振荡器数量约为65时,FPGA面积利用率和振荡频率达到一个平衡点(约15%面积利用率,对应频率约为最大值的某个百分比)。
模式检索性能验证
通过关联记忆任务(从受损图案中检索原始图案)比较两种架构的性能。在相同的权重位宽(5位)和相位位宽(4位)下,对于3x3至7x6等较小规模图案,混合架构与递归架构在检索准确率和平均收敛时间(以振荡周期计)上表现非常接近。对于混合架构才能实现的大规模图案(如10x10和22x22),在像素损坏率为10%和25%时仍能保持接近100%的检索准确率,证明了其动力学特性在大型网络中依然有效。
讨论与结论
本研究提出的混合数字ONN架构,通过将耦合计算部分串行化,成功地将硬件资源扩展性从二次方降低至近线性(约1.2阶),为实现大规模ONN提供了可行的路径。这在Zynq-7020 FPGA上实现了506个全连接振荡器,是迄今为止报道的最大规模全连接数字ONN。尽管存在振荡频率与网络规模之间的权衡,但该架构在模式检索任务中表现出与递归架构相媲美的性能。这项工作为数字ONN走向大规模实际应用奠定了基础,未来的研究方向包括探索其在更复杂组合优化问题中的应用以及多FPGA集群的扩展。