关于神经网络中高度表达性的研究

【字体: 时间:2026年02月28日 来源:IEEE Transactions on Artificial Intelligence CS6.4

编辑推荐:

  三维神经网络架构优化研究。通过引入同层神经元连接(高度维度),构建三维网络(W×K×H),在保持参数量不变的情况下显著提升表达能力和近似性能。理论分析表明三维网络可生成指数级更多分段线性函数,误差指数级降低,实验验证其在合成数据、表格数据及图像基准测试中表现优异,有效缓解深度学习硬件成本压力。

  
影响声明:
由于硬件的限制,维持“越深越好”的原则变得越来越困难。我们提出了一种新的网络设计视角,通过引入……显示更多

摘要:

在这项工作中,我们在传统神经网络的宽度与深度基础上,增加了一个新的维度——高度,通过在同一层的神经元之间建立连接来实现。这些连接被称为层内连接,它们形成了层次结构,提高了网络的逼近能力(表达能力),同时不会增加参数数量。我们证明,这种三维架构(宽度 × 深度 × 高度)在理论和实验上均显著优于传统的二维网络(宽度 × 深度)。首先,在神经元数量相同的情况下,三维ReLU网络能够生成比二维网络多得多的分段线性函数表示形式,具体来说,其复杂度为 O((2^H ? 1)W × K × H)。其次,从逼近能力角度来看,三维网络在逼近多项式时能够达到更高的精度,并且误差呈指数级减少,相比之下,二维网络的复杂度为 O(2^W × K ? 2W × K)。最后,通过对五个合成数据集、15个表格数据集和3个图像基准测试的数值实验验证,三维网络在回归和分类任务上表现出色。

引言

20世纪80年代末,由于计算资源有限,流行的网络架构较为简单。在过去十年中,深度网络(如ResNet和Transformer)在许多领域取得了显著的成功,这强化了“越深越好”的观念。我们将浅层网络和深层网络分别称为一维(1-D)和二维(2-D)网络。然而,深度/大型网络的发展显著增加了训练和部署成本,通常需要价值数百万美元的图形处理单元集群。因此,只有大型机构才能负担得起开发这类模型的费用,这扭曲了人工智能生态系统的平衡。此外,硬件技术的进步正接近物理极限,最先进的GPU即将采用1纳米制程。因此,“越深越好”的趋势在未来可能难以持续。那么,未来的网络架构会是什么样子呢?

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号