MB-GLOM:一种具有多头投影和瓶颈残差机制的、更具 attention 功能的 GLOM(Generative Pre-trained Transformer,生成预训练Transformer)模型

《Neural Networks》:MB-GLOM: An attentive GLOM with multi-head projection and bottleneck residual

【字体: 时间:2026年05月07日 来源:Neural Networks 6.3

编辑推荐:

  杨辉|穆大忠|曾如|宋彦上海医药卫生科技大学附属周浦医院,上海,201318,中国摘要GLOM模型通过其独特的层次化表示设计,有效地捕捉了图像中局部特征与全局结构之间的关系,使其成为可解释神经网络研究中的重点。然而,GLOM中使用的传统对比投影策略计算成本高且参数效率低,限制了其

  
杨辉|穆大忠|曾如|宋彦
上海医药卫生科技大学附属周浦医院,上海,201318,中国

摘要

GLOM模型通过其独特的层次化表示设计,有效地捕捉了图像中局部特征与全局结构之间的关系,使其成为可解释神经网络研究中的重点。然而,GLOM中使用的传统对比投影策略计算成本高且参数效率低,限制了其在实际场景中的应用。为了解决这个问题,我们提出了MB-GLOM,这是一种从原始GLOM架构衍生出的优化模型,旨在减少计算开销同时保持甚至提高模型性能。常见的优化方法无法满足GLOM对全局-局部特征聚合的要求,从而削弱了其表示学习能力。因此,MB-GLOM采用多头投影来改进传统的对比学习头,并通过瓶颈残差连接优化信息路由。此外,还引入了自适应混合注意力机制来增强特征表达能力。在包括SmallNORB、MNIST、FashionMNIST、CIFAR-10、CIFAR-100和Tiny-Imagenet在内的多个基准数据集上的实验结果表明,MB-GLOM的性能与GLOM相当或更优,同时显著降低了参数数量和计算资源使用量。此外,可视化实验结果显示,尽管计算成本降低,MB-GLOM模型仍保持了出色的层次关系表示能力。

引言

近年来,深度神经网络(DNNs)在计算机视觉领域取得了突破性进展,在包括图像分类、对象检测和语义分割在内的广泛任务中取得了前所未有的性能(Chai, Wang, Shao, Liu, 2025; Chen, Wu, Tan, Li, Chen, Zeng, Chen, Wu, Tan, Li, et al., 2025a; Chen, Hu, Wu, Ma, 2025b; Guan, Zheng, Wang, 2025; Krizhevsky, Sutskever, Hinton, 2012; Li, Du, Liu, Yang, 2025; Ma, Wu, Luo, 2025)。其中,GLOM模型因其独特的层次化表示学习机制而脱颖而出,该机制能够在无监督和弱监督环境下实现高效的特征聚合和复杂视觉模式的自适应建模。它在视觉表示、对象识别和特征聚合等任务中表现出强大的性能(Hinton, 2023)。GLOM建立了跨层的动态信息路由,使同一层的标记能够自组织成局部表示,并促进跨层通信以实现更高级的特征抽象。这种机制使GLOM在捕捉复杂结构和层次关系方面优于传统的CNN和Transformer(Dosovitskiy, Beyer, Kolesnikov, Weissenborn, Zhai, Unterthiner, Dehghani, Minderer, Heigold, Gelly, et al., Hinton, 2023)。此外,与传统的CNN或Transformer架构不同,GLOM利用动态路由和层次化特征聚合更自然地捕捉结构层次,从而增强了模型的可解释性(Dosovitskiy et al., 2020)。尽管GLOM具有出色的表示能力,但其计算复杂度高且参数数量庞大,这在资源受限的设备(如移动设备和边缘计算平台)上的部署中构成了重大挑战(Wu et al., 2024)。此外,随着数据量的增加和计算需求的上升,GLOM的高计算成本和推理延迟进一步阻碍了其在自动驾驶、医学图像分析和智能监控等实时应用中的广泛采用(Li, Li, Meng, 2023b; Xu, McAuley, 2023)。因此,不断增长的数据规模和计算负载使得GLOM的推理效率低下成为其更广泛应用的关键瓶颈。
在降低模型计算成本的研究中,主流的模型压缩技术通常可以分为三类:参数减少方法、数值精度压缩方法和架构重设计方法(Li, Li, Meng, 2023b; Xu, McAuley, 2023)。然而,这些方法通常依赖于特征冗余或层次线性堆叠等假设,这些假设与GLOM和胶囊网络(依赖层次化表示、动态路由和部分-整体关系建模的模型)根本不兼容(Renzulli et al., 2022)。对于参数减少方法,胶囊内部或层内标记之间的协作表示对参数变化非常敏感。现有的关于修剪和简化胶囊结构的工作表明,这些操作必须谨慎设计以避免干扰路由行为和层次抽象(Sahu and Altahhan, 2024)。数值精度压缩方法引入的累积数值误差会干扰动态路由过程中的概率更新收敛。专门为胶囊网络开发的量化框架表明,路由机制需要定制的近似策略来保持模型性能(Marchisio, Bussolino, Colucci, Martina, Masera, Shafique, 2020; Marchisio, Bussolino, Salvati, Martina, Masera, Shafique, 2022)。同时,架构重设计方法(如移动网风格的轻量级卷积主干或高效CNN结构)主要依赖于局部卷积和深度可分离运算符。这些设计原则无法复现GLOM或胶囊网络的跨层实体匹配和高维表示机制,使得直接进行架构移植不可行(Mazzia, Salvetti, Chiaberge, 2021; Pawan, Sharma, Reddy, Vani, Rajan, 2023)。因此,GLOM和基于胶囊的模型的核心机制本质上限制了它们与现有轻量级策略的兼容性。在不损害其层次化表示能力的情况下实现计算和存储成本的显著降低仍然是一个开放且具有挑战性的研究问题。
为了解决上述问题,我们提出了一种基于GLOM的优化模型,名为MB-GLOM。我们的模型显著减少了参数数量,提高了计算效率,同时保持了甚至提高了原始GLOM模型的性能。我们的主要贡献总结如下:
  • 本文解决了GLOM模型中由传统对比学习投影和多层堆叠架构引起的计算复杂性和参数冗余问题。我们提出了一种优化设计方案,并构建了一个增强的基于GLOM的模型MB-GLOM。
  • 为了解决GLOM中参数数量过多和计算复杂性高的问题,我们引入了一种多头投影机制,以增强对比学习投影并降低计算成本。此外,我们提出了一种瓶颈残差路由策略来提高信息流效率并最小化冗余。为了在参数减少的情况下保持表示能力,我们引入了一种自适应混合注意力机制,以实现计算效率与表达能力的平衡。
  • 在包括SmallNORB、MNIST、FashionMNIST、CIFAR-10和CIFAR-100在内的多个基准数据集上的广泛实验表明,MB-GLOM的性能与GLOM相当或更优,同时显著降低了参数数量并提高了推理效率。此外,消融研究验证了每个提出的组件的有效性以及它们集成的协同效应。
  • 章节片段

    相关工作

    网络架构

    在本节中,我们将详细阐述MB-GLOM模型。如图1所示,在嵌入阶段,应用改进的标记器提取每张图像的特征图,图像大小为 H × W 像素。与原始图像相比,这提供了更丰富的表示。此外,与原始GLOM模型相比,自适应混合注意力机制的引入有效地捕捉了图像中的位置信息和长距离空间交互。

    定量实验

    我们首先根据文献(Garau et al., 2022)在以下数据集上进行实验:SmallNORB(S-NORB)(LeCun et al., 2004)是一个用于识别3D物体的数据集,主要用于对象分类和姿态估计,包含具有各种旋转角度和视点的图像。它包含大约200,000张玩具图像,每张图像的大小为96 × 96像素。MNIST(LeCun et al., 2002)是一个经典的手写数字数据集,包含60,0028 × 28像素

    结论

    在这项研究中,我们提出了基于GLOM模型的高效改进模型MB-GLOM,并在多个数据集上系统地评估了其性能。与原始GLOM模型相比,MB-GLOM通过多头投影机制和瓶颈残差信息路由显著提高了计算效率,同时通过在特征提取阶段结合AHA注意力机制保持了高模型精度。实验结果表明

    CRediT作者贡献声明

    杨辉:监督、形式分析、数据策划、概念化。穆大忠:写作——初稿、软件、数据策划、概念化。曾如:写作——审阅与编辑、可视化、监督。宋彦:写作——审阅与编辑、写作——初稿、监督、资金获取、形式分析、概念化。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作部分得到了中国国家自然科学基金项目(项目编号62573297)和上海市教育委员会人工智能计划(SHJWAIJK241201)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号