神经网络中的分形:引入一类新的激活函数
《Communications in Nonlinear Science and Numerical Simulation》:Fractals in neural networks: Introducing a new class of activation functions
【字体:
大
中
小
】
时间:2026年05月11日
来源:Communications in Nonlinear Science and Numerical Simulation 3.8
编辑推荐:
塞巴斯蒂安·劳比茨克(Sebastian Raubitzek)|托比亚斯·基特雷伯(Tobias Kietreiber)|塞巴斯蒂安·埃雷斯海姆(Sebastian Eresheim)|亚历山大·布赫尔特(Alexander Buchelt)|凯文·马林格(Kevin Malli
塞巴斯蒂安·劳比茨克(Sebastian Raubitzek)|托比亚斯·基特雷伯(Tobias Kietreiber)|塞巴斯蒂安·埃雷斯海姆(Sebastian Eresheim)|亚历山大·布赫尔特(Alexander Buchelt)|凯文·马林格(Kevin Mallinger)
SBA Research GmbH,维也纳,奥地利
**摘要**
我们提出了一类基于Blancmange曲线和Weierstrass-Mandelbrot级数的神经网络激活函数。这些函数旨在将分形、自仿射和多尺度结构整合到标准的前馈架构中,同时保持与常见训练程序的兼容性。与tanh和ReLU等平滑或分段线性的激活函数不同,所提出的激活函数故意设计为非平滑的,目的是在不改变网络深度或宽度的情况下提高表达能力。我们使用浅层神经网络在标准表格分类基准测试上评估了这些激活函数的表现,发现几种分形变体相对于现有基线实现了竞争性或更好的性能。基于轨迹变形的几何诊断表明其具有更高的表达能力,而进一步分析则突出了计算成本和梯度稳定性方面的权衡。总体而言,结果表明分形激活函数为现有的激活函数设计提供了可行且灵活的扩展,并激发了对更大、更深层次架构的进一步研究。
**引言**
神经网络依赖简单的数学组件来模拟数据中的复杂关系。在这些组件中,激活函数在信息通过网络传输时起着核心作用。尽管深度、宽度以及优化策略等架构选择已被广泛研究,但激活函数本身的作用仍然是控制表达能力和学习动态的关键因素。最常用的激活函数是平滑的或分段线性的,主要设计目的是为了计算简化和数值稳定性。在这项工作中,我们探索了一个受分形几何学启发的替代设计方向,探讨是否具有内在多尺度结构的激活函数可以在不改变网络架构的情况下丰富神经表示能力。
**前馈人工神经网络(ANNs)**通过堆叠线性层和逐元素激活函数来近似映射x?y。权重学习特定任务的投影,而激活函数?(·)则注入非线性,使模型能够拟合高度弯曲的决策边界。经典的选择包括平滑的、饱和的[1]、[2]、[3](如sigmoid、tanh)和分段线性的[4]、[5](如ReLU)函数。精心选择的?函数使得更深层次的网络在视觉、语言和科学发现等领域取得了最先进的结果。这种成功与激活函数的表达能力密切相关,而表达能力取决于激活函数的选择及其形状[6]、[7]。
**最新证据**表明,区分可训练和不可训练的超参数配置的边界本身是一个分形对象。训练过程中迭代的更新映射与生成Mandelbrot和Julia分形的复杂二次映射非常相似——学习率或初始化的微小变化就可能导致结果从收敛变为爆炸。这一分形特性的出现激发了我们这样的问题:如果从一开始就将分形特性构建到神经网络中会怎样?基于标准的sigmoid的浅层网络在表达能力上有限;更大的深度和ReLU等激活函数可以提高表达能力[6]、[7]。在这里,我们引入了分形激活函数以超越ReLU的表现。我们的设计借鉴了Blancmange(Takagi)曲线[9]、[10]和Weierstrass-Mandelbrot函数[11]、[12]、[13]、[14],并结合了ReLU或tanh等熟悉组件。
分形函数来源于非线性分析,被研究为具有自相似性、尺度不变性和不可微分性的基本函数示例。经典构造如Weierstrass函数[13]、[14]表明,简单的迭代定义可以产生处处不可微的连续函数。这些概念后来在分形几何和非线性科学[12]、[15]中得到了形式化,其中这些函数用于描述不规则和多尺度结构。分形函数也被应用于实际场景中,以模拟具有多尺度复杂性的现象,例如湍流过程、粗糙表面和具有长程依赖性的信号[16]、[17]。在这些情况下,分形表示提供了一种结构化的方式来描述平滑或分段线性函数难以捕捉的行为。从这个角度来看,将分形结构融入激活函数遵循了非线性建模中的既定原则,即使用多尺度函数类来表示复杂模式。
然而,此时我们需要将我们的分形激活函数与其他在神经网络中构建分形特性的方法区分开来,这些方法在[18]、[19]、[20]、[21]、[22]中有介绍。这些方法基于不同的概念:虽然我们为神经网络引入了分形激活函数,但它们分别采用了分形神经元层次结构和分形特征作为预处理步骤。同样,也有证据表明分形插值可以提高神经网络在特定数据集上的性能[23]、[24]。分形技术还可以用于改进卷积神经网络架构及其超参数[25]、[26]。
本研究关注小规模的表格数据集和浅层前馈神经网络架构。这种设置使我们能够在简化的环境分析分形激活函数的性能和表达能力。我们的目标不是立即将其应用于大规模深度学习系统,而是建立适用性,量化权衡,并识别限制,以激发对这类激活函数在更复杂架构中的可扩展性和部署的进一步研究。
**本文的研究问题包括:**
- 是否可以将源自分形级数的激活函数像标准激活函数一样用于神经网络,以及它们如何影响性能?
- 这些分形激活功能是否比现有选择增加了神经网络的表达能力?
**我们的贡献**:
(i) 我们提出了一种将Weierstrass型和Blancmange型级数转换为计算稳定激活函数的通用方法(第2.3节),并在十个公共分类数据集上证明了它们的可用性。
(ii) 我们通过轨迹长度诊断量化了它们的表达能力,揭示了超ReLU增长和独特的振荡特征(第4节)。
综上所述,我们的结果表明,工程化的分形特性是提高神经网络表达能力和性能的一个有前景的新范式——除了深度、宽度和正则化之外。
**文章结构**
第2节介绍了神经网络和基于Blancmange及Weierstrass-Mandelbrot级数的分形激活函数的构建方法。第3节描述了实验设置,包括数据集、网络架构、训练协议和评估标准。第3.1节还展示了十个表格基准测试的预测性能结果并进行了分析。第4节使用轨迹长度诊断和几何分析研究了所提出激活函数的表达特性。第5节分析了梯度稳定性和训练动态。我们在第6节讨论了所有发现,并在第7节总结了文章。我们还提供了附录A,详细说明了计算成本和运行时行为,以保持主文本的焦点。
**方法论**
本节介绍了研究中使用的计算工具:前馈神经网络、五种基于梯度的优化器、三种标准激活函数和分形函数。
**分类实验**
本研究的主要目的是证明我们提出的方法的实际可行性和有效性,从而为基本思想提供概念验证。我们在一系列公开可访问的数据集上测试了我们之前讨论的想法,所有数据集都是分类任务:
- **气候模型模拟崩溃数据集(OpenML: climate-model-simulation-crashes, ID: 1467)**:包含540个模拟,具有18个数值配置变量(温度等)。
**分形激活的表达能力**
为了理解分形激活为何有效,我们测量了它们在未经训练的随机网络内部对输入轨迹的变形程度。我们的协议遵循Poole等人[6]和Raghu等人[7]的长度基础诊断方法。实验分为两个步骤:
1. 生成一个探测曲线:选取两个随机向量x0, x1~N(0, Id),并在半圆弧t=cos(πt/2)x0+sin(πt/2)x1上插值,t∈[0,1]。
这种构造保持了‖x(t)‖2的基本恒定,因此之后的任何长度变化都来自网络本身。
**梯度稳定性分析**
本节评估了在第3节相同实验条件下不同激活函数的梯度幅度及其变化性。数据集分割、网络架构、批量大小、训练周期数和随机种子与准确性分析相同;唯一变化的实验因素是激活函数。此外,优化器保持为RMSprop。我们报告了两个代表性数据集Iris(多类分类)和Vertebra Column的结果。
**讨论**
基于Blancmange和Weierstrass-Mandelbrot级数的分形激活函数扩展了普通前馈网络的功能范围。在十个表格基准测试中,它们在每种情况下都进入了前五名,并且当与自适应优化器结合使用时,差异很小。我们承认平均结果存在一些波动性,但结果仍表明分形激活函数是一个有效的选择,可以实现顶级性能和/或排名。
**结论**
本研究调查了在浅层神经网络中使用Blancmange和Weierstrass-Mandelbrot构造分形激活函数进行表格分类的情况。在多个基准数据集中,几种分形激活函数的表现与ReLU、tanh和sigmoid等标准激活函数相当,甚至在许多情况下更优。基于轨迹长度和PCA投影的几何分析表明,这些激活函数引入了多尺度特性。
**代码可用性**
完整代码可在以下仓库获取:https://github.com/Raubkatz/Fractal_Activation_Functions
**关于人工智能和技术声明**
作者使用Grammarly和ChatGPT辅助语法校正、消除打字错误和风格优化整个手稿。使用这些服务后,作者根据需要审查和编辑了内容,并对出版物的内容负全责。
**作者贡献声明**
塞巴斯蒂安·劳比茨克(Sebastian Raubitzek):撰写 – 审阅与编辑、撰写 – 原稿、可视化、验证、监督、软件、资源、项目管理、方法论、调查、形式分析、数据管理、概念化。
托比亚斯·基特雷伯(Tobias Kietreiber):撰写 – 审阅与编辑、撰写 – 原稿、形式分析、概念化。
塞巴斯蒂安·埃雷斯海姆(Sebastian Eresheim):撰写 – 审阅与编辑、撰写 – 原稿、概念化。
亚历山大·布赫尔特(Alexander Buchelt):撰写 – 审阅与编辑、撰写 –
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号