《Neurocomputing》:Sparse assemblies of recurrent neural networks with stability guarantees
编辑推荐:
提出基于收缩理论的稀疏递归神经网络组装框架AdaDiag,通过自适应对角线参数化和可学习时间尺度实现稳定与可训练性的平衡,减少参数量同时保持模块化扩展能力。
安德烈亚·切尼(Andrea Ceni)|瓦莱里奥·德卡罗(Valerio De Caro)|达维德·巴丘(Davide Bacciu)|克劳迪奥·加利基奥(Claudio Gallicchio)
意大利比萨大学,Largo B. Pontecorvo 3号,56127
摘要
我们提出了AdaDiag框架,用于构建具有形式稳定性保证的稀疏循环神经网络(RNN)组合。我们的方法基于收缩理论,通过自适应的对角参数化和可学习的特征时间尺度设计出本质上具有收缩性的RNN模块。这种设计使得每个模块在保持全局稳定性的同时仍可完全训练。我们对收缩性进行了严格的理论分析,并讨论了复杂性,表明稳定性可以在不增加额外计算负担的情况下实现。在十个异构时间序列基准测试中的实验表明,AdaDiag的表现始终优于SCN、LSTM和Vanilla RNN基线模型,并且所需的可训练参数数量大幅减少。这些结果突显了稀疏且稳定的组合在高效、自适应和通用序列建模方面的有效性。
引言
从传感器信号到语言,序列数据面临着诸多挑战:适应动态变化、提供稳定预测以及捕捉长期依赖关系[1]、[2]。循环神经网络(RNN)为建模此类时间过程提供了强大的框架,但它们在完全适应性和稳定性之间存在矛盾[3]、[4]、[5]、[6]。循环动态的稳定性对于可靠的学习和稳健的泛化至关重要,而适应多样化和不断变化的输入环境则是实际应用的关键要求[7]、[8]。
一个有前景的方向是构建由较小RNN模块组成的组合,而不是依赖单一的庞大架构。通过利用稀疏性,这样的组合在可训练参数和模块间信息交换方面提高了效率,同时保持了表达能力并降低了密集型单一架构的过拟合风险。收缩理论中的成熟结果表明,当适当耦合时,收缩系统的组合能够保持其收缩性[9]。特别是,通过负反馈连接可以实现适当的耦合,这可以通过斜对称约束自然地建模。斜对称权重参数化已在包括前馈网络[10]、RNN[11]和基于图的模型[12]、[13]在内的学习系统中得到广泛研究,并被证明在多种情境下都有效。它们不仅有助于捕捉数据中的长期依赖关系,还能促进稳定性,因此是设计模块化RNN组合的自然选择。这些观察结果为构建具有可证明稳定性的模块化RNN架构提供了原理性的基础。
然而,沿此方向之前的方法(如[14]中的Sparse Combo Net (SCN))表明,最有效的解决方案涉及固定RNN模块的内部权重,这限制了它们适应特定任务动态的能力。解决这一限制需要既能保持收缩性又能允许模块内部动态适应的架构。
在这项工作中,我们提出了AdaDiag,这是一种由设计上具有收缩性的RNN模块组成的稀疏组合。每个RNN模块都采用自适应的对角参数化来保证稳定性,同时使用可学习的特征时间尺度向量来增强单个神经元的适应性。这种设计使模块能够灵活调整其时间动态,从而在不同任务中实现鲁棒性和泛化能力。通过将我们的架构建立在非线性收缩理论的基础上,AdaDiag实现了稳定性、稀疏性和适应性的原则性平衡,为传统的单一循环模型提供了一种高效且性能优异的替代方案。
章节片段
背景:稳定的连续时间RNN组合
我们的工作基于以下类型的RNN建模,如[14]、[15]、[16]中所描述的:其中是RNN的隐藏状态,定义了RNN的特征时间尺度,是循环连接,是(在中定义的外部输入的(线性变换),是非线性激活函数(在我们的实验中使用了ReLU)。在[14]中,他们考虑了个RNN子网络,并假设将第个RNN模块与第个RNN模块耦合起来,
AdaDiag模型
我们的方法用一个自适应且高效的模块替换了(1)中的标准RNN更新,该模块通过设计保证了稳定性并促进了优化。具体来说,我们考虑了由个RNN子网络组成的组合,每个子网络都由控制,其中每个单元通过可学习的频率向量(特征时间常数的倒数)发展出自己的特征时间尺度,和是可学习的适当维度的矩阵,是逐元素应用的sigmoid函数。
AdaDiag模块的收缩性和可扩展性
接下来,我们重点证明单个AdaDiag模块的收缩性。鉴于[14]中的理论结果,当循环模块在孤立状态下具有收缩性时,它们的组合在(3)、(4)中的斜对称耦合方案下仍然是稳定的。由于我们的AdaDiag组合采用了这种耦合参数化,因此只需证明单个模块的稳定性即可,从而保证整体稳定性。
实验评估
我们在UEA和UCR仓库的一系列多样时间序列基准测试上对所提出的模型进行了实验验证,包括分类1和回归2,以及HAR-2分类任务(该任务源自[21]中的原始HAR数据集),还有流行的序列MNIST(简称sMNIST)和排列序列(简称psMNIST)分类任务[22]。具体来说,
与最佳报告结果的扩展比较
在本节中,我们通过纳入近期文献中的多种模型,系统地将我们的最佳结果与迄今为止报告的一些最强结果进行比较。这种扩展比较使我们能够更好地将我们的贡献置于时间序列学习这一更广泛的领域中,涵盖经典方法、深度学习架构和大规模基础模型。
文献中的模型所考虑的模型包括
未来工作
AdaDiag展示了有希望的性能,但其设计和优化的几个方面仍有待探索。一个限制是超参数,它控制着RNN组合的稀疏程度,目前仅进行了部分探索,因为我们限制了实验范围在和;未来的工作可以研究为给定任务自动选择最佳值的策略。另一个方面是结构化或稀疏的输入到循环映射的设计结论
在本文中,我们解决了构建稳定且自适应的循环神经网络(RNN)组合的问题。我们的工作基于[14]中的理论结果,其中最佳性能的方法要求组合中的所有RNN在整个训练过程中保持固定。受到允许模块适应性的表示能力潜在好处的启发,我们提出了一种策略,其中RNN的
CRediT作者贡献声明
安德烈亚·切尼(Andrea Ceni):撰写——审阅与编辑、撰写——原始草稿、可视化、验证、监督、软件、方法论、调查、形式分析、概念化。瓦莱里奥·德卡罗(Valerio De Caro):软件。达维德·巴丘(Davide Bacciu):监督、项目管理、资金获取。克劳迪奥·加利基奥(Claudio Gallicchio):监督、项目管理、资金获取。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
本项工作得到了NEURONE的支持,该项目由欧盟下一代计划M4C1 CUP I53D23003600006资助,属于PRIN 2022计划(项目代码20229JRTZA),以及EU-EIC EMERGE(授权号101070918)。
手稿准备过程中生成式AI和AI辅助技术的声明
在准备本项工作时,作者使用了ChatGPT进行写作辅助、编辑和格式化。使用该工具后,作者根据需要审查和编辑了内容,并对发表文章的内容负全责。