近年来,深度神经网络(DNNs)在计算机视觉领域取得了突破性进展,在包括图像分类、对象检测和语义分割在内的广泛任务中取得了前所未有的性能(Chai, Wang, Shao, Liu, 2025; Chen, Wu, Tan, Li, Chen, Zeng, Chen, Wu, Tan, Li, et al., 2025a; Chen, Hu, Wu, Ma, 2025b; Guan, Zheng, Wang, 2025; Krizhevsky, Sutskever, Hinton, 2012; Li, Du, Liu, Yang, 2025; Ma, Wu, Luo, 2025)。其中,GLOM模型因其独特的层次化表示学习机制而脱颖而出,该机制能够在无监督和弱监督环境下实现高效的特征聚合和复杂视觉模式的自适应建模。它在视觉表示、对象识别和特征聚合等任务中表现出强大的性能(Hinton, 2023)。GLOM建立了跨层的动态信息路由,使同一层的标记能够自组织成局部表示,并促进跨层通信以实现更高级的特征抽象。这种机制使GLOM在捕捉复杂结构和层次关系方面优于传统的CNN和Transformer(Dosovitskiy, Beyer, Kolesnikov, Weissenborn, Zhai, Unterthiner, Dehghani, Minderer, Heigold, Gelly, et al., Hinton, 2023)。此外,与传统的CNN或Transformer架构不同,GLOM利用动态路由和层次化特征聚合更自然地捕捉结构层次,从而增强了模型的可解释性(Dosovitskiy et al., 2020)。尽管GLOM具有出色的表示能力,但其计算复杂度高且参数数量庞大,这在资源受限的设备(如移动设备和边缘计算平台)上的部署中构成了重大挑战(Wu et al., 2024)。此外,随着数据量的增加和计算需求的上升,GLOM的高计算成本和推理延迟进一步阻碍了其在自动驾驶、医学图像分析和智能监控等实时应用中的广泛采用(Li, Li, Meng, 2023b; Xu, McAuley, 2023)。因此,不断增长的数据规模和计算负载使得GLOM的推理效率低下成为其更广泛应用的关键瓶颈。
在降低模型计算成本的研究中,主流的模型压缩技术通常可以分为三类:参数减少方法、数值精度压缩方法和架构重设计方法(Li, Li, Meng, 2023b; Xu, McAuley, 2023)。然而,这些方法通常依赖于特征冗余或层次线性堆叠等假设,这些假设与GLOM和胶囊网络(依赖层次化表示、动态路由和部分-整体关系建模的模型)根本不兼容(Renzulli et al., 2022)。对于参数减少方法,胶囊内部或层内标记之间的协作表示对参数变化非常敏感。现有的关于修剪和简化胶囊结构的工作表明,这些操作必须谨慎设计以避免干扰路由行为和层次抽象(Sahu and Altahhan, 2024)。数值精度压缩方法引入的累积数值误差会干扰动态路由过程中的概率更新收敛。专门为胶囊网络开发的量化框架表明,路由机制需要定制的近似策略来保持模型性能(Marchisio, Bussolino, Colucci, Martina, Masera, Shafique, 2020; Marchisio, Bussolino, Salvati, Martina, Masera, Shafique, 2022)。同时,架构重设计方法(如移动网风格的轻量级卷积主干或高效CNN结构)主要依赖于局部卷积和深度可分离运算符。这些设计原则无法复现GLOM或胶囊网络的跨层实体匹配和高维表示机制,使得直接进行架构移植不可行(Mazzia, Salvetti, Chiaberge, 2021; Pawan, Sharma, Reddy, Vani, Rajan, 2023)。因此,GLOM和基于胶囊的模型的核心机制本质上限制了它们与现有轻量级策略的兼容性。在不损害其层次化表示能力的情况下实现计算和存储成本的显著降低仍然是一个开放且具有挑战性的研究问题。
为了解决上述问题,我们提出了一种基于GLOM的优化模型,名为MB-GLOM。我们的模型显著减少了参数数量,提高了计算效率,同时保持了甚至提高了原始GLOM模型的性能。我们的主要贡献总结如下:
•本文解决了GLOM模型中由传统对比学习投影和多层堆叠架构引起的计算复杂性和参数冗余问题。我们提出了一种优化设计方案,并构建了一个增强的基于GLOM的模型MB-GLOM。
•为了解决GLOM中参数数量过多和计算复杂性高的问题,我们引入了一种多头投影机制,以增强对比学习投影并降低计算成本。此外,我们提出了一种瓶颈残差路由策略来提高信息流效率并最小化冗余。为了在参数减少的情况下保持表示能力,我们引入了一种自适应混合注意力机制,以实现计算效率与表达能力的平衡。
•在包括SmallNORB、MNIST、FashionMNIST、CIFAR-10和CIFAR-100在内的多个基准数据集上的广泛实验表明,MB-GLOM的性能与GLOM相当或更优,同时显著降低了参数数量并提高了推理效率。此外,消融研究验证了每个提出的组件的有效性以及它们集成的协同效应。