加速理解谱分析:一种多方法组合来提升神经网络中的抽象规则学习能力
《Knowledge-Based Systems》:Accelerating Grokking through Spectral Analysis: A Multi-method Approach to Enhancing Abstract Rule Learning in Neural Networks
【字体:
大
中
小
】
时间:2026年03月02日
来源:Knowledge-Based Systems 7.6
编辑推荐:
本文提出基于频谱分析的加速方法,通过分析Transformer注意力输出的频谱特性揭示"groking"机制,在模运算和排列组合任务中显著减少训练步数,同时保持高泛化准确率。
黄志高|郑世岩|潘淼|李全发
中国福建省泉州市泉州师范学院
摘要
我们研究了变压器注意力输出的频谱特性如何与“领悟”(grokking)现象相关,以及这些信息如何被用来加速从记忆到泛化的过渡。我们提出了一个频谱偏移假设和一个基于任务复杂度的截止值选择规则(并明确给出了假设),并在模块算术和排列组合任务上评估了八种频谱方法变体。实证结果表明,我们最好的层依赖型变体在排列组合任务上的平均验证准确率达到了约99.97%,同时在相同的15k更新预算下,将达到99%准确率的步骤数减少了约17%。对于更简单的算术任务,多策略变体将步骤数减少了多达47%。我们还观察到特定于层的频率专业化模式,这些模式在训练过程中提供了可解释的诊断信号。
引言
当神经网络在算法任务上进行训练时,它们通常会表现出一种有趣的学习模式:首先记忆训练数据,从而获得完美的训练准确率,但验证性能较差,然后突然“领悟”到潜在的规则,从而显著提高泛化能力。这种现象被称为“领悟”[1],它引起了广泛关注,因为它挑战了人们对泛化的传统理解[2]、[3]、[4],并提供了关于神经网络如何发现抽象规则的见解[2]、[5]、[6]。
理解和加速“领悟”现象至关重要,原因有几点。首先,它为研究深度学习中从记忆到真正理解的过渡提供了一个简化的实验室环境[7]、[8]、[9]。其次,它可能为资源受限环境中的更高效训练提供技术支持[10]、[11]。第三,从“领悟”现象中获得的见解有助于解释大规模模型中能力的出现[12]、[13]。然而,尽管有大量的研究,但“领悟”现象仍然理解不足,大多数现有方法提供的机制解释有限[14]。
以往的研究从不同的角度探讨了“领悟”现象:优化动态[2]、[15]、损失函数景观[3]、[16]、正则化效应[17]、[18]以及架构修改[5]、[19]、[20]。虽然这些方法提供了有价值的见解,但它们主要将“领悟”视为一种涌现现象,而没有提供预测或加速它的精确机制。值得注意的是,最近的可解释性研究[2]、[7]开始描述“领悟”过程中的内部表示,但尚未将这些见解转化为实际的加速方法。
频谱分析为神经网络中的表示学习提供了一个有前景的新视角。研究表明,神经网络首先倾向于学习低频函数[18]、[21]、[22],基于频率的方法在各种领域被证明能有效提高泛化能力[23]、[24]、[25]。然而,这些见解尚未被系统地应用于理解和加速“领悟”现象。
我们的工作通过引入一个新的频谱框架来填补这一空白,该框架既解释了“领悟”现象,又加速了这一过程。我们分析了训练过程中变压器注意力输出中信息在频率分量上的分布情况,揭示了频率特征与泛化能力之间的明确关系。与之前修改损失函数[17]或架构[26]的方法不同,我们的方法直接利用频谱表示中包含的信息来指导学习过程。
我们的研究有几个重要贡献:
•我们为变压器网络开发了一个全面的频谱分析框架,揭示了训练过程中频率分布的演变,为理解表示学习提供了新的视角[27]、[28]。
•在对称群中具有挑战性的非交换排列组合任务上,我们最好的层依赖型变体在相同的15k更新预算下,达到了接近完美的准确率,并减少了达到99%准确率的步骤数(表2)。
•我们建立了任务复杂度与最佳频谱配置之间的基本关系,表明复杂任务需要更多的高频信息(33%的截止值),而简单任务也从保留足够的频率信息而不是过度细化中受益——这一发现与认知科学中的规则学习理论[29]、[30]相吻合。
•我们提供了关于层特化的理论见解,表明不同的网络层发展出不同的频率处理方法[31]、[32],早期层在更宽的频率范围内使用更高幅度的处理,而更深层次的层则采用更集中的处理方式,并具有不同的截止阈值。
•我们开发了实用的加速技术,将训练步骤减少了多达47%,同时保持或提高了最终性能,这些技术可以直接应用于资源受限环境中的高效训练[11]、[33]。
与以往主要关注观察或解释“领悟”现象[1]、[2]、[3]的工作不同,我们的方法提供了机制上的理解和实际的加速方法。虽然最近在神经网络中的频谱方法主要集中在一般训练动态[18]、[25]上,但我们的应用针对的是一个具体且具有挑战性的现象——“领悟”。此外,尽管之前的工作涉及课程学习[34]、[35]和组合泛化[36]、[37]的相关问题,但我们基于频率的方法提供了关于神经网络如何学习抽象规则的更根本的视角。
本文的结构如下:第2节回顾了神经网络中“领悟”现象和频谱分析的相关工作。第3节提供了关于“领悟”的背景信息,并介绍了我们的频谱分析方法。第4节详细描述了我们的八种方法变体。第5节概述了我们的实验设置和任务。第6节展示了不同任务和方法的结果。第7节讨论了理论意义和实际应用。最后,第8节总结了我们的发现并指出了未来的研究方向。
节选
“领悟”现象
“领悟”现象最初由[1]正式描述,他们观察到在算法任务上训练的神经网络会首先记忆训练样本,然后在大量训练后突然泛化。后续研究探讨了这一现象的各个方面。[2]研究了优化动态的作用,认为“领悟”代表了从记忆到抽象的过渡。[3]考察了“领悟”过程中的损失函数景观,并提出了“弹弓效应”。
“领悟”现象
“领悟”指的是一种训练模式,其中神经网络首先记忆训练数据,获得高训练准确率,但验证性能较差,然后突然“领悟”到潜在的规则,从而迅速提高验证准确率。这种现象在具有明确数学结构的算法任务中尤为明显,例如模块算术[1]、[4]或排列操作[7]。
从记忆到泛化的过渡通常发生在
方法
图1总结了整个训练时间流程:我们从注意力头的输出中提取基于FFT的频谱特征,并使用它们来计算头部权重(可选地带有层依赖参数),这些权重会重新调整下一层使用的注意力输出。
我们开发了八种方法变体(Run 0-8)来探索和利用频谱分析来加速“领悟”过程:
任务
我们在四个复杂度逐渐增加的任务上评估了我们的方法:
•x_plus_y:模块加法
•x_minus_y:模块减法
x_div_y:5个元素的排列组合这些任务代表了精心设计的数学复杂性谱系。算术运算(加法、减法、除法)是可交换的或遵循可预测的代数模式,问题空间的组合数量为abaaaaa
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号